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内 容 提要 

计算 广告 是 一 项 新 兴 的 研究 课题 ， 它 涉及 大 规模 搜索 和 文本 分 
析 、 信 息 获 到、 统计 模型 、 机 器 学 习 、 分 类 、 优 化 以 及 微观 经 济 学 等 
诸多 领域 的 知识 。 本 书 从 实践 出 发 ， 系 统 地 介绍 计算 广告 的 产品 、 问 
题 、 系 统 和 算法 ， 并 且 从 工业 界 的 视角 对 这 一 领域 具体 技术 的 深入 剖 
析 。 

本 书 立 足 于 广告 市 场 的 根本 问题 ， 从 计算 广告 各 个 阶段 所 遇 到 的 
市 场 挑 战 出 发 ， 以 广告 系统 业务 形态 的 需求 和 变化 为 主线 ， 依 次 介绍 
合约 广告 系统 、 竞 价 广告 系统 、 程 序 化 交易 市 场 等 重要 课题 ， 并 对 计 
算 广 告 涉及 的 关键 技术 和 算法 做 深入 的 探讨 。 

无 论 是 互联 网 公司 商业 化 部 门 的 产品 技术 人 员 ， 还 是 对 个 性 化 系 
统 、 大 数据 变现 或 交易 有 兴趣 的 产品 技术 人 员 ， 传 统 企 业 互 联网 化 进 
程 的 决策 者 ， 传 统 广告 业务 的 从 业者 ， 互 联网 创业 者 ， 计 算 机 相关 专 
业 研 究 生 ， 都 会 从 阅读 本 书 中 受益 菲 浅 。 
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以 下 点 评分 领域 以 点 评 人 的 姓氏 笔画 为 序 排 列 。 

互联 网 公司 管理 层 

在 线 广告 市 场 是 比较 复杂 的 体系 ， 它 贯穿 了 互联 网 生态 链 的 各 种 
角色 。 刘 鹏 的 著作 既 从 商业 角度 介绍 了 在 线 广告 ， 也 深入 到 了 广告 的 
技术 和 算法 层面 ， 还 包括 对 于 一 个 大 规模 竞价 市 场 在 市 场 设 计 方 面 的 
相关 原理 和 优化 机 会 。 这 本 书 不 仅 是 了 解 在 线 广 告 市 场 的 途径 ， 也 是 
了 解 互联 网 商业 和 鳃 利 模式 设计 的 窗口 ， 同 时 对 于 互联 网 产品 设计 会 
有 很 好 的 参考 作用 。 

一 一 王 华 (@ 超 几 Derek) ， 阿 里 巴巴 副 总 裁 ， 阿 里 妈妈 负责 

这 是 一 本 非常 系统 、 全 面 地 介绍 计算 广告 的 书 ， 一 本 在 线 广告 专 
业 人 员 必 读 的 书 ， 一 本 值得 强烈 推荐 给 想 利用 互联 网 力量 的 企业 主 和 
决策 制定 者 和 对 大 数据 价值 感 兴趣 的 研究 人 员 和 工程 师 的 书 。 虽 然 我 
亦 曾 亲眼 目 睛 广告 业 在 20 世纪 90 年 代 开 始 的 革命 ， 一 直 积 极 参与 在 
线 广告 的 演变 ， 但 阅读 完 这 本 书 ， 我 对 计算 广告 整个 图 景 以 及 很 多 细 
微 之 处 有 了 更 多 更 深刻 的 理解 。 

一 一 毛 建 昌 ， 微 软 Distinguished Engineer 和 Bing 广 告 工程 负责 人 ， 


前 雅虎 实验 室 广 告 科 学 副 总 裁 


十 多 年 的 实践 证 明 ， 互 联网 最 有 效 的 商业 模式 莫 过 于 可 以 把 流量 
直接 变现 的 在 线 广告 模式 。 从 最 初 铺 天 凋 地 的 横幅 广告 起 步 ， 到 人 和 群 
及 兴趣 精准 定 同 的 搜索 广告 与 推荐 引擎 ， 直 到 与 内 容 环境 融 为 一 体 的 
原生 广告 ， 用 户 需 求 与 口味 的 不 断 变迁 促使 着 广告 产品 与 技术 持续 不 
断 地 升级 与 发 酵 。 本 书 最 大 的 腕 点 在 于 ， 作 者 从 中 国 互 联网 广告 发 展 
全 过 程 亲 历 者 的 视角 ， 极 为 系统 地 讲述 了 计算 广告 的 产品 设计 思维 与 
技术 理论 基础 ， 泗 盖 从 广告 呈现 到 计价 策略 力 至 滤 法 实现 并 直接 运用 
于 互联 网 流量 变现 谋 题 的 方方面面 。 无 论 是 产品 经 理 还 是 工程 师 ， 如 
知 准 备 投 号 于 这 一 互联 网 最 大 的 金 矿 领 域 ， 此 书 是 手边 必须 常备 的 工 
具 书 与 教材 。 


一 一 刘 子 正 〈@ 刘 子 正 ) ， 微 博 常务 副 总 经 理 
本 书 内 容 全 面 且 与 时 俱 进 ， 对 核心 技术 的 介绍 深入 浅 出 ， 有 是 计算 
广告 领域 一 本 难得 的 好 书 。 本 书 视野 党 阔 ， 涵 盖 了 在 线 广告 市 场 及 核 
心 技术 的 各 个 方面 ， 除 了 主流 技术 以 外 ， 对 一 些 其 他 著作 很 少 涉及 的 
方面 ， 如 广告 创意 优化 、 反 欺诈、 隐私 保护 等 也 进行 了 介绍 。 本 书 内 
容 新 凑 ， 把 近年 涌现 出 的 一 些 新 的 广告 形式 和 技术 ， 如 实时 范 价 的 广 
告 交 易 、 原 生 广 告 等 ， 痢 窜 括 其 中 。 男 外 ， 本 书 行文 流畅 、 逻 辑 清 
蜥 ， 对 核心 技术 的 介绍 深入 到 位 ， 包 售 了 重要 的 算法 细 市 以 及 理论 探 
讨 ， 对 计算 广告 的 从 业者 而 言 ， 是 一 本 非常 实用 的 参考 书 。 
一 一 刘 铁 岩 (OXRA) ， 微 软 亚 洲 研究 院 首席 研究 员 


在 互联 网 深入 改造 传统 行业 的 进程 中 ， 所 请 “ 诗 毛 出 在 猪 届 上 ”的 
后 癌变 现 商业 策略 至 头 重 要 。 市 场 上 并 不 乏 关 于 这 一 策略 的 推 采 和 讨 
论 ， 不 过 本 书 从 实战 的 角度 出 发 ， 对 其 中 关键 的 商业 逻辑 和 产品 结构 
作 了 全 面 的 梳理 ， 而 这 些 对 于 商业 化 战略 的 落地 至 关 重 要 。 因 此 ， 我 
推荐 所 有 正 处 在 互联 网 化 变革 行业 的 从 业者 们 阅读 本 书 ， 结 合 各 目的 
知识 背景 和 行业 问题 ， 相 信 你 们 一 定 可 以 从 本 书 中 找到 有 指导 意义 的 
内 容 。 


陈彤 OZV) ， 小 米内 容 运 营 和 投资 副 总 裁 
刘 鹏 博士 古 我 以 前 在 微软 时 的 同事 ， 他 博学 窒 贸 ， 融 会 文理 ， 给 
我 留 下 深刻 印象 。 他 将 多 年 积 素 的 相关 经 验 与 成 果 整 理 成 国内 第 一 部 
正式 出 版 的 计算 广告 著作 ， 值 得 向 大 家 强烈 推荐 。 这 本 书 将 该 领域 的 
实际 商业 问题 与 技术 解决 方案 结合 起 来 ， 让 读者 对 计算 广告 的 理论 与 
实践 、 应 用 与 技术 、 系 统 与 方法 有 全 面 深 入 的 了 解 和 认 知 。 对 于 已 经 
掌握 了 机 器 学 习 、 数 据 挖 抉 技术 的 从 业者 、 技 术 人 员 、 教 师 和 学 生 ， 
如 有 果 想 进入 计算 广告 及 其 相关 领域 ,这 古 一 部 极 佳 的 指南 。 
一 一 李 航 〈@ 李 航 博 士 ) ， 华 为 诺 亚 方舟 实验 室 主 任 
互联 网 业内 人 士 都 清楚 流量 的 作用 ， 流 量 之 于 互联 网 ， 正 如 血液 
之 于 人 体 。 不 同 之 处 在 于 ， 互 联网 上 的 流量 是 趋 利 的 ， 变 现 能 力 决 定 
了 流量 的 方向 和 价值 。 计 算 广 告 是 流量 变现 最 重要 的 方式 之 一 。 只 有 
了 解 了 互联 网 广告 的 精髓 ， 才 能 真正 懂得 互联 网 上 流量 的 奥秘 ， 也 才 
能 懂得 互联 网 的 奥秘 。 本 书 作 者 对 互联 网 广告 的 市 场 、 产 品 和 技术 做 


了 人 全面、 深刻 的 剖析 ， 为 业内 外 人 士 理解 并 踏 入 这 个 领域 提供 了 一 条 
捷径 。 尽 管 本 人 从 事 互 联网 广告 研发 多 年 ， 也 是 第 一 次 读 到 如 此 系统 
的 著作 ， 受 益 菲 浅 ! 
一 一 沈 拌 (@ 沈 拌 ) ， 百 度 高 级 技术 总 监 
我 们 的 团队 花 了 大 量 精力 寻找 和 调研 国内 外 的 相关 资料 和 文献 ， 
却 一 直 苦 于 没有 一 套 相 对 完整 的 知识 体系 来 帮助 我 们 的 业务 和 技术 人 
员 加 快 学 习 、 少 走 弯 路 。 因 此 ， 我 期 待 这 样 一 本 书 的 出 现 至 少 已 经 有 
两 三 年 的 时 间 。 作 为 一 门 方兴未艾 而 发 展 迅 猛 的 新 兴 产业 ， 我 相信 刘 
觅 的 这 套 科 学 且 实 际 的 知识 体系 ， 将 对 数字 营销 领域 的 同仁 有 非常 大 
的 指导 价值 。 程 序 化 营销 、 大 数据 应 用 是 发 展 异 常 迅猛 的 产业 ， 涉 及 
大 量 的 产品 、 工 程 以 及 算法 ， 也 涉及 相当 多 的 商业 逻辑 的 深刻 洞察 。 
而 刘 觅 通过 对 产业 内 在 逻辑 的 诠释 和 推演 贯穿 程序 化 营销 产业 的 发 
展 ， 对 我 们 真正 把 握 大 数据 给 各 个 产业 带 来 的 深刻 变化 和 影响 ， 具 有 
深刻 的 指导 意义 。 
iis 〈@ 杨 炯 纬 ) ，360 副 总 裁 ， 聚 效 广告 CEO 
如 果 说 当年 Yahoo! 广告 首席 科学 家 Andrei Broder 在 斯 坦 福 开 设 的 
课程 第 一 次 把 计算 广告 学 作为 一 门 学 科 ， 那 么 这 本 《计算 广告 》 堪 称 
这 门 新 兴学 科 的 第 一 本 教科 书 ， 因 为 这 是 首次 全 面 系 统 地 阐述 计算 广 
告 学 的 著作 ， 履 盖 了 商业 人 逻辑、 产品 结构 、 关 键 技 术 、 工 程 实践 和 应 
用 实例 。 在 内 容 结 构 编排 上 ， 本 书 由 浅 入 深 ， 从 宏观 背景 到 技术 细 
节 ， 从 经 典 的 搜索 广告 到 最 新 的 实时 竞价 ， 既 适合 作为 从 事 在 线 广告 


的 商务 运营 人 员 的 参考 书 ， 也 适合 作为 一 线 技术 开发 人 员 的 实战 指 


导 。 


余 凯 〈@ 余 凯 西 二 旗 民 工 ) ， 百 度 研 究 院 副 院 长 ， 深 度 学 习 
实验 室 主 任 
计算 广告 近年 来 特别 热 ， 全 球 大 小 互联 网 公司 有 大 量 的 算法 工程 
师 、 系 统 工 程 师 、 数 据 科学 家 在 从 事 与 此 相关 的 工作 。 正 如 刘 朋 在 书 
中 指出 的 ， 流 量变 现 和 数据 变现 是 很 多 互联 网 公司 商业 模型 的 核心 。 
虽然 学 术 界 和 工业 办 有 大 量 与 计算 广告 相关 的 文章 ， 但 或 侧重 于 算 
法 ， 或 侧重 于 系统 ， 抑 或 侧重 于 商业 逻辑 ， 却 很 少 能 像 本 书 一 样 把 这 
儿 个 维度 融会 贯通 地 串 在 一 起 ， 既 有 连贯 性 、 有 广度 ， 义 有 足够 的 深 
度 。 刘 鹏 过 去 几 年 中 伦 了 大 量 的 精力 在 清华 大 学 、 北 京 大 学 以 及 一 些 
在 线 教育 平台 分 享 他 对 计算 广告 的 深刻 理解 ， 影 响 了 不 少 人 ， 我 过 去 
和 现在 的 团队 都 有 他 的 粉丝 、 他 的 学 生 。 现 在 刘 鹏 又 把 他 对 计算 广告 
的 深刻 理解 集结 成 书 ， 能 影响 到 更 多 的 人 “。 为 刘 鹏 点 赞 ! 
张 小 沛 (@Joyce 在 路 上 ) ， 宜 信 CTO， 前 Hulu 全 球 副 总 裁 
计算 广告 学 纷繁 复 洒 ， 刘 鹏 以 一 个 科学 的 实践 家 的 态度 抽 丝 剥 
， 人 全面、 系统 地 曾 述 了 其 技术 架构 与 产品 生态 ， 为 入 门 者 普及 了 概 
， 为 从 业者 开阔 了 眼界 。 


c» p 


一 一 罗 征 ， 腾 讯 广 点 通 总 经 理 
互联 网 广告 在 近 十 余年 里 一 直 保 持 着 爆炸 式 的 发 展 ， 文 撑 着 谷 
歌 、 脸 书 、 阿 里 、 百 度 等 数 个 百 亿 、 千 亿 级 互联 网 公司 。 或 许 其 发 展 


过 于 迅猛 ， 或 许 其 涉及 领域 过 于 宽 沁 ， 以 至 于 近 几 年 来 一 直 没 有 一 本 
优秀 的 书 能 够 系统 、 全 面 地 对 互联 网 广告 加 以 介绍 。 这 本 书 把 这 件 早 
忠 应 该 有 人 去 做 的 事情 漂亮 地 完成 了 。 从 业务 模式 到 技术 架构 ， 从 算 
法 模型 到 工程 实现 ， 从 理论 基础 到 实现 细 节 ， 从 历史 背景 到 最 新 动 
态 ， 这 本 书 都 做 了 翔实 、 系 统 的 讲解 。 相 信 对 于 每 一 位 置 号 于 互联 网 
广告 业 的 朋友 ， 不 论 其 在 这 纷繁 复 洒 的 行业 里 承担 什么 样 角色 ， 这 本 
书 真 值得 一 读 。 


一 一 硕大 伟 (E Xf) ， 小 米 广告 负责 人 

很 高 兴 看 到 刘 鹏 博士 把 目 己 在 互联 网 广告 领域 的 多 年 经 验 和 得 芒 
整理 成 书 ， 其 中 既 有 他 对 商业 产品 的 理解 ， 也 有 算法 和 工程 实现 的 总 
结 。 本 书 不 仅 第 一 次 全 面 梳理 了 互联 网 广告 产品 形态 ， 针 对 每 个 产品 
描述 了 相应 的 核心 算法 和 系统 实现 ， 而 且 全 面 描述 了 以 媒体 和 广告 主 
为 核心 的 生态 圈 ， 以 及 技术 如 何 一 步 步 促 使 生态 圈 演 化 ， 不 断 创造 出 
更 大 的 商业 价值 。 对 于 互联 网 广告 从 业者 来 说 ， 相 信 读 后 一 定 获 花 民 
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Bole 〈@ 机 志峰 Michael) ， 汽 车 之 家 技术 副 总 裁 
来 自 互联 网 创业 者 
如 果 你 正 从 事 或 准备 进入 互联 网 广告 行业 ， 本 书 应 该 是 你 的 职业 
生涯 中 必 不 可 少 的 读物 之 一 。 无 论 在 中 国 或 是 放眼 世界 ， 作 者 以 更 
深 、 更 广 的 视角 向 读者 展示 了 当今 互联 网 行业 的 市 场 与 技术 。 在 享受 
互联 网 大 数据 带 来 乐趣 的 同时 ， 书 中 介绍 的 中 西 市 场 案例 将 助力 中 国 


互联 网 从 业者 (包括 产品 技术 人 员 ) 开拓 创新 思维 。 本 书 为 推动 中 国 
互联 网 发 展 赋予 了 更 重要 的 意义 。 
一 一 闫 盟 (goi*jBRAdMaster) ，AdMaster 创 始 人 、CEO 
今天 ， 大 数据 浪潮 正在 席卷 全 球 。 数 字 技 术 正 在 改变 我 们 的 生活 
方式 ， 同 样 也 在 驱动 着 商业 、 营 销 和 广告 业 的 未 来 。 营 销 不 再 只 是 关 
于 策略 、 创 意 和 idea 的 ， 更 和 技术 的 发 展 紧 紧 地 捆绑 在 一 起 。 进 入 
2015 年 后 ， 我 们 看 到 全 行业 正在 迎接 大 数据 的 风口 ， 从 数据 的 沉积 分 
析 和 管理 到 数据 的 真正 打通 ， 这 是 一 场 时 代 的 演进 。 刘 觅 博士 的 这 本 
书 正 是 对 这 个 变革 时 代 和 营销 技术 变化 的 实录 ， 他 对 最 新 数字 广告 技术 
方方面面 的 精 到 剖析 ， 不 仅 是 对 广告 知识 体系 的 实时 更 新 ， 更 是 对 未 
来 新 的 数字 营销 体系 架构 的 有 益 探 索 。 和 希望 今天 我 们 在 勇于 探索 和 开 
拓 的 也 正 是 未 来 被 写 进 历史 的 故事 。 
一 一 吴 明 辉 ， 秒 针 系 统 创 始 人 、 董 事 长 兼 CEO 
随 着 互联 网 的 高 速 增长 ， 广 告 开始 往 精 细 化 发 展 ， 如 何在 有 限 的 
资源 里 获得 最 大 化 的 广告 综合 收益 是 一 个 非常 复杂 、 重 要 且 有 趣 的 问 
题 ， 这 也 是 计算 广告 研究 的 方向 。 刘 月 作为 这 个 方向 的 专家 ， 在 本 书 
中 从 计算 广告 问题 的 提出 开始 ， 介 绍 了 计算 广告 的 产品 形态 以 及 关键 
技术 ， 非 常 适合 互联 网 广告 的 从 业者 系统 性 地 了 解 计算 广告 领域 。 
周 霖 〈@ 周 霖 -KCN) ， 搜 易 贷 联合 创始 人 ， 前 搜狐 高 级 副 总 
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这 本 书 逻 辑 清晰 ， 非 常 贴近 实战 ， 值 得 网 络 广 告 从 业 人 员 仔 细 阅 
读 与 思考 。 无 论 是 媒体 、 广 告 代理 还 是 广告 主 ， 谁 能 更 好 地 获取 数 
据 、 理 解数 据 、 应 用 数据 ， 谁 就 能 在 日 益 激 烈 的 市 场 竞争 中 脱 颖 而 
出 。 

一 一 赵 士 路 〈@ 赵 士 路 ) ，WiseMedia 创 始 人 、CEO 

互联 网 和 移动 互联 网 广告 生态 圈 正 在 发 生 翻 天 履 地 的 变化 ， 广 告 
形式 、 产 品 形态 、 市 场 格局 及 产业 链 模 式 不 断 推 陈 出 新 ， 让 人 目 不 暇 
接 。 同 时 ， 基 于 营销 大 数据 的 计算 广告 技术 也 日 益 成 熟 。 刘 鹏 博士 的 
这 本 书 将 两 者 有 机 结合 ， 既 能 帮助 从 业 人 员 了 解 互联 网 广告 全 貌 及 流 
量变 现 的 现状 ， 也 能 帮助 技术 人 员 掌 握 计算 广告 的 核心 技术 ， 是 一 本 
兼顾 商业 产品 逻辑 和 技术 实践 的 难得 一 见 的 佳作 。 

一 一 唐 健 ， 智 云 众 创始 人 、CEO 

互联 网 广告 是 一 个 千 亿 级 的 市 场 ， 如 果 把 互联 网 比 作 一 辆 车 的 
话 ， 互 联网 广告 就 是 汽油 ， 因 为 大 多 数 网 站 都 是 依靠 广告 盐 利 。 刘 朋 
博士 的 这 本 书 涉及 大 量 的 基础 知识 、 概 念 和 商业 模式 ， 是 目前 此 领域 
比较 全 面 的 一 本 广告 技术 著作 。 书 的 内 容 深入 浅 出 ， 讲 述 了 搜索 广 
告 、 广 告 交 易 平台 、 广 告 基 本 算法 以 及 开源 系统 等 重要 概念 ， 也 介绍 
了 不 少 相 关 广 告 技 术 公 司 以 及 他 们 在 互联 网 广告 这 个 产业 链 上 的 各 种 
典型 产品 ， 非 常 适合 从 业 人 员 以 及 有 兴趣 进入 这 一 阳光 产业 的 同学 学 


一 一 唐 朝 晖 〈“@ 唐 朝晖 adSage) ， 艾 德 思 奇 创始 人 、CEO 


过 去 5 年 是 移动 互联 网 发 展 最 快 的 时 期 ， 开 发 者 创造 出 如 此 多 的 应 
用 和 内 容 ， 用 户 行为 习惯 和 数据 积累 发 生 如 此 惊人 变化 。 在 此 过 程 
中 ， 在 线 广告 作为 最 主要 的 变现 形式 ， 逐 渐 成 为 广大 从 业 人 员 必 须 掌 
握 的 知识 和 技术 。 然 而 ， 由 于 此 领域 学 习 门 槛 较 高 ， 对 于 很 多 从 业 人 
员 来 说 迷雾 重重 。 大 部 分 相关 文章 只 是 对 于 广告 相关 一 些 术语 进行 了 
罗列 或 介绍 ， 无 法 让 大 家 “ 知 其 然而 知 其 所 以 然 >。 这 本 书 的 出 版 将 弥 
补 这 一 空白 ， 它 系统 性 地 介绍 在 线 广告 的 发 展 历 史 和 人 辑 ， 以 及 流行 
的 程序 化 购买 关键 技术 与 算法 。 更 为 可 贵 的 是 ， 刘 鹏 在 本 书 中 融入 了 
自己 多 年 对 于 计算 广告 领域 的 理解 和 经 验 ， 使 得 整 本 书 的 思路 和 编排 
极为 流畅 。 本 书 既 适合 想 了 解 此 领域 的 初学 者 或 业务 人 员 泛 读 ， 也 适 
合 专 家 以 及 产品 人 员 对 特定 的 知识 点 精读 。 本 书 将 成 为 广大 互联 网 从 
业 人 员 必 备 的 读物 ， 特 此 重点 推荐 给 大 家 。 

一 ” 崔 晓 波 (@ 誉 晓 波 _TalkingData) ，TalkingData 创 始 人 、CEO 

来 目 媒 体 与 行业 专家 

本 质 上 讲 ， 互 联网 经 济 与 广告 经 济 都 属于 信息 经 济 的 具体 技术 形 
态 或 产业 形态 ， 核 心 要 素 是 数据 ， 经 济 学 特征 则 是 “所 有 能 够 传播 信息 
的 商品 ， 其 售 价 都 会 趋向 其 边际 成 本 。 因 此 ， 确 定数 据 商业 化 与 广告 
产品 化 之 间 转 换 的 逻辑 、 方 法 和 路 径 极为 重要 ， 计 算 广 告 恰恰 是 这 样 
一 种 经 过 多 年 实践 的 有 效 体系 。 刘 鹏 先生 所 著 的 这 本 书 对 相关 的 技 
术 、 创 新 与 商业 作 了 极 好 的 刻画 、 梳 理 与 论述 。 

— — Heg (OBK) , ， 原 尼尔森 高 级 副 总 裁 


这 本 书 于 我 而 言 ， 是 打开 了 一 扇 窗 ， 让 我 看 见 了 在 巨大 的 互联 网 
告 产业 后 面 蕴 含 的 数学 模型 和 算法 基础 。 计 算 广 告 学 中 蕴含 的 各 种 
方法 让 我 想到 了 管理 方法 论 中 很 著名 的 一 句 话 : "If you can't measure 
it, you can't manage it!” 量 化 的 方法 使 得 计算 广告 学 成 为 计算 机 科学 与 
工程 的 一 个 崭新 和 重要 的 方向 。 非 常 感谢 作者 的 知识 分 享 。 
陈 怀 临 〈@ 湾 区 评论 ) ， 弯 曲 评论 创始 人 
我 有 两 个 身份 ， 既 是 从 20 世 纪 开 始 工作 的 广告 主 ， 同 时 又 是 大 学 
老师 ， 但 面 对 的 却 是 一 样 的 问题 和 困惑 。 营 销 方法 尤其 是 广告 形式 推 
陈 出 新 ， 众 多 科技 层出不穷 ， 受 限于 自身 的 学 问 背景 ， 不 可 能 全 部 都 
了 解 。 所 以 有 拜读 本 书 内 容 的 机 会 我 特别 欣喜 ， 终 于 有 由 业内 专家 执 
笔 旦 技术 含量 特别 高 、 非 常 实用 的 书 了 。 广 告 主 可 以 从 中 了 解 不 同 的 
展现 方式 ， 利 用 书 中 的 广告 主 在 线 营 销 决 策 过 程 择 善 而 为 。 媒 体 也 可 
以 凭借 类 似 的 广告 变现 决策 ， 揭 示 未 来 的 发 展 方向 。 专 业 人 员 可 以 进 
一 步 了 解 背后 的 技术 ， 找 出 最 有 针对 性 的 广告 投放 ， 提 升 推广 成 果 。 
因此 ， 我 非常 推崇 本 书 的 实用 价值 及 参考 价值 。 
一 一 杨 仕 名 (BEA) ， 香 港大 学 SPACE 中 国 商 业 学 院 副 总 
监 ， 营 销 与 传媒 管理 中 心 主任 
告 带 来 的 后 向 变现 是 互联 网 经 济 中 核心 的 变现 模式 之 一 ， 也 是 
互联 网 商业 模式 的 重要 根基 ， 而 本 书 对 这 一 领域 作 了 一 次 全 面 的 总 
结 。 我 们 希望 互联 网 企业 、 广 告 服务 和 技术 公司 ， 以 及 艾 瑞 这 样 的 数 


据 服务 公司 ， 以 本 书 的 出 版 为 站 机 ， 认 真 探 讨 互 联网 商业 模式 上 的 分 
工 协 作 ， 推 动 行业 的 变革 与 发 展 。 
一 一 杨 伟 庆 (OREK) ， 艾 瑞 咨 询 总 裁 
世界 上 有 一 种 沟通 是 付费 的 ， 这 吏 是 广告 的 本 质 。 然 而 ， 近 几 年 
互联 网 改变 了 整个 广告 生态 的 格局 ， 目 前 世界 上 最 叱 只 风云 的 互联 网 
公司 几乎 都 依赖 广告 。 刘 鹏 博士 的 这 本 书 系统 性 地 介绍 了 这 种 深层 次 
的 变化 ， 以 及 整个 产业 链 进发 出 的 各 种 技术 手段 与 学 问 。 此 书 由 浅 入 
深 系 统 地 介绍 了 几乎 每 个 互联 网 广告 的 生态 位 置 以 及 背后 运作 的 机 
理 ， 是 我 目前 见 过 国内 最 系统 的 介绍 计算 广告 的 著作 。 此 书 对 互联 
网 、 媒 体 、 厂 告 公司 、 市 场 襄 销 人 士 ， 其 至 消费 者 都 症 一 本 了 解 互 联 
网 广告 的 佳作 。 
一 一 张 迪 (@ 广 告 技 术 流 adexchanger) ，Adexchanger.cn 创 始 人 
有 了 互联 网 才 有 了 计算 广告 学 : 计算 广告 学 把 传统 的 无 法 定向 投 
放 和 无 法 度量 的 广告 变 得 可 以 定 同 投放 和 可 以 量化 度量 效果 。 刘 鹏 博 
士 在 工作 之 余 ， 把 计算 广告 学 的 系统 性 知识 和 多 年 实战 经 验 总 结 成 
书 ， 对 从 事 计 算 广 告 的 工程 师 和 想 了 解 计 算 广 告 的 工程 师 都 非常 有 大 
Bj 


一 一 张 栋 〈@ 张 栋 _ 机 器 学 习 ) ， 前 Google 人 研究 员 

对 计算 广告 技术 和 商务 人 才 的 需求 近 两 年 迅速 高 涨 ， 但 计算 广告 

是 一 个 新 兴 交 义学 科 ， 一 直 缺 乏 全 面 系统 的 专著 。 这 本 书 全 面 介 绍 了 
这 一 领域 的 商业 背景 知识 、 业 务 需 求 和 详细 的 技术 实现 思路 。 本 书 一 


个 重要 特色 是 将 该 领域 的 商业 挑战 与 技术 的 选择 、 应 用 、 实 现 进行 了 
融 汇 中 西 的 系统 化 介绍 ， 让 不 同 知 识 背 景 的 读者 都 能 从 中 获得 认识 提 
升 。 此 外 ， 本 书 对 于 整个 计算 广告 技术 知识 体系 的 梳理 全 面 、 准 确 ， 
囊括 了 从 业 人 士 和 学 术 研究 需要 关注 和 了 解 的 主要 知识 点 ， 对 于 已 有 
一 定 基础 和 实践 经 验 的 读者 也 能 从 中 温 故 知 新 和 查 遗 补缺 。 此 书 的 出 
版 对 于 促进 中 国 相关 行业 人 才 池 的 增长 大 有 神 益 。 
一 范 秋 华 (@RTBChina) ，RTBChina 创 始 人 
互联 和 互通 正 领跑 ， 有 眼球 经 济 网 民 包 。 创 收 多 多 靠 广告 ， 变 现 书 籍 
TIER o A EREK, ERARIK o ERIRE, X 
此 书 及 时 抛 。 入 门 登 笛 先 介绍 ， 市 场 规模 大 和 蛋糕。 产品 技术 两 面 刀 ， 
块 块 切 党 大 与 小 。 搜 索 推广 竞价 搞 ， 合 约 展现 包 推 销 。 程 序 交 易 争 分 
秒 ， 移 动 平台 效 新 招 。 信 息 流 起 人 社交 ， 原 生 广 告 置 混 消 。 探 索 利用 
平衡 高 ， 点 击 建 模 测验 校 。 背 景 逻 辑 打 夯 牢 ， 核 心 技术 条 其 奥 。 照 戎 
卢 可 画 出 标 ， 立 午 见 影 编 码 跑 。 十 载 面壁 勤 思 考 ， 刘 鹏 功 成 发 大 招 。 
油 翁 多 年 练 广告 ， 情 不 自 禁 拇指 挑 ! 
一 一 洪涛 (@zhazhaba) ， 打 油 诗人 ， 前 百度 高 级 科学 家 
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2009 年 11 月 ， 我 在 香港 参加 CIKM'09， 听 Andrei Broder JL AL 

者 讲 了 一 个 导 学 课 
告 导 论 ) ， 和 耳目 一 新 ， 觉 得 在 我 们 的 大 学 中 应 该 有 这 样 一 门 课 。 

回来 后 了 解 了 一 下 周围 青年 教师 的 情况 ， 没 有 发 现 能 够 开 这 种 课 
的 人 人。 后来， 好 像 首 先是 在 微 博 上 ， 知 道 了 刘 鹏 是 这 方面 的 专家 。 一 
联系 ， 果 然 如 此 。 与 其 探讨 在 北大 开 一 次 这 种 课 的 可 能 性 ， 他 欣然 应 
允 。 时 间 定 在 2013 年 夏天 ， 我 安排 实验 室 的 青年 教师 艾 波 做 助教 ， 目 
的 之 一 ， 束 是 希望 通过 助教 工作 学 会 计算 广告 这 一 套 知 识 ， 然 后 独立 
在 北大 开 出 课 来 。 

刘 鹏 的 课 进行 得 很 顺利 ， 茧 波 每 次 都 参加 ， 我 也 去 听 过 一 次 。 
2014 年 秋 ， 绢 波 勇敢 地 开 出 课 来 了 。 课 程 结 束 后 我 问 他 感觉 怎么 样 ， 
他 说 内 容 太 多 ， 把 握 得 还 不 好 ， 而 且 没 有 教材 ， 对 老师 学 生 都 是 个 困 
难 。 

其 实 ， 最 初 我 请 刘 觅 来 上 课 的 时 候 就 谈 到 过 教材 的 问题 。 他 答应 
考虑 ， 但 因为 他 在 公司 里 的 工作 很 已 ， 所 以 需要 比较 长 的 时 间 。 但 他 
没有 忘记 ! 两 年 多 过 去 了 ， 一 天 他 给 我 发 邮件 说 书稿 完成 了 ， 和 希望 我 
能 为 他 的 书写 个 序 ， 令 我 十 分 欣喜 。 


Introduction to Computational Advertising (计算 


SABA, (ACRE te TFET RKB SAT 
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术 讲 技术 ， 提 高 了 本 书 的 立意 ， 因 而 也 适合 更 广泛 的 读者 群 ， 包 括 计 
算 机 相关 专业 的 人 研究生。 应 该 说 ， 这 本 书 的 风格 不 同 于 通常 的 教材 ， 
如 有 果 直 接 用 于 教学 ， 对 教师 的 要 求 会 比较 高 ， 但 不 失 为 一 本 优秀 的 教 
学 参考 书 。 尤 其 是 在 其 内 容 铺陈 中 展现 出 来 的 数据 加 工 、 利 用 与 交易 
的 思维 主线 ， 能 让 计算 机 专业 的 学 生 看 到 活生生 的 技术 需求 。 而 在 互 
联网 广告 的 育 景 下 对 数据 的 充分 强调 ， 让 读者 对 大 数据 的 意义 有 了 一 
种 更 具体 的 体会 。 

国内 大 学 中 的 计算 机 专业 教育 (尤其 是 高 年 级 和 人 研究生 的 ) 现在 
困难 和 问题 还 比较 多 。 比 较 明 显 的 一 点 束 是 ， 教 学 内 容 的 时 代 感 不 够 
强 。 这 一 点 在 广度 和 深度 上 都 有 反应 。 跟 不 上 业界 的 发 展 ， 一 些 重要 
的 课程 不 能 及 时 有 效 地 开 ， 我 认为 “计算 广告 ”就 是 其 中 之 一 。 这 种 情 
况 和 芝 动 发 展 的 信息 技术 和 产业 是 不 相 适 应 的 。 因 此 ， 我 们 欢迎 业 办 
中 对 技术 和 产业 有 比较 透彻 理解 且 对 教育 有 情怀 的 专家 参与 到 大 学 教 
学 活动 中 来 ， 让 我 们 的 学 生 学 到 更 多 的 真 本 事 ， 适 应 产业 发 展 的 需 
要 。 刘 鹏 2013 年 在 北大 计 开 < 计算 广告 课程 束 是 这 样 一 种 表率 ， 他 这 
本 书 的 面世 也 是 这 个 意义 上 的 一 种 奉献 ， 当 予 祝 桂 。 

李晓明 ， 北 泵 大 学 计算 机 系 教授 
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所 有 互联 网 公司 都 对 广告 变现 的 地 位 和 价值 并 不 陌生 。 在 每 一 个 
用 户 产 品 成 长 的 各 个 阶段 ， 除 了 认真 解决 需求 痛 点 、 优 化 用 户 体验 ， 
也 应 该 不 断 地 对 流量 和 数据 的 价值 进行 评 佑 ， 并 积极 探讨 商业 变现 的 
战略 与 产品 。 而 在 各 种 商业 化 产品 当中 ， 以 计算 为 导 回 的 广告 变现 无 
疑 是 最 为 重要 的 。 

在 产品 选 型 、 开 发 和 运 划 的 初期 阶段 ， 如 果 能 对 产品 未 来 产生 的 
数据 和 流量 价值 有 正确 的 评 佑 ， 并 了 解 如 何 利用 广告 产品 将 这 些 资产 
变现 ， 对 于 判断 该 产品 的 成 长 空间 和 商业 价值 非常 重要 。 另 外 ， 早 期 
的 产品 推广 会 用 到 许多 广告 营销 产品 ， 而 对 于 计算 广告 原理 的 深入 了 
解 也 将 有 利于 高 效 地 做 好 营销 。 

当 产 品 得 到 市 场 认 可 ， 获 得 了 一 定 的 用 户 规模 以 后 ， 积 极 制 定 系 
统 性 的 商业 化 战略 ， 用 合理 的 变现 方式 获得 现金 流 ， 从 而 文 撑 产 品 的 
快速 发 展 ， 则 是 每 一 个 互联 网 公司 成 长 过 程 中 必须 经 历 的 关键 步 又 。 
如 有 果 能 洞悉 互联 网 广告 市 场 的 产品 技术 全 觅 ， 无 疑 对 此 阶段 的 决策 大 
有 帮助 。 

里 然 广 告 技术 在 互联 网 行业 至 关 重 要 ， 长 期 以 来 ， 却 只 有 一 些 只 
钱 片 爪 的 专题 文章 ， 对 业界 系统 架构 与 算法 的 介绍 ， 从 世界 范围 来 


看 ， 都 非常 缺乏 系统 性 的 整理 和 总 结 。 这 一 方面 是 由 于 广告 市 场 发 展 
迅速 ， 从 搜索 竞价 到 程序 化 交易 ， 再 到 移动 互联 网 下 的 原生 广告 趋 
势 ， 日 狐 月 异 的 产品 进化 速度 让 整个 工业 界 来 不 及 集 下 脚步 做 小 结 ; 
另 一 方面 是 广告 产品 的 内 在 逻辑 不 像 用 户 产 品 那样 直觉 ， 要 进行 全 面 
透彻 的 整理 和 齐 析 ， 需 要 兼 有 丰 刘 的 实践 经 验 和 相当 的 理论 抽象 能 
力 。 也 正 由 于 缺乏 系统 性 的 资料 ， 互 联网 工业 界 在 这 方面 的 人 才 培 养 
也 不 够 系统 ， 导 致 在 广告 产品 技术 这 样 一 个 重要 的 领域 ， 人 才 一 直 厦 
短缺 的 。 

刘 鹏 博士 曾经 与 我 在 搜狐 集团 有 过 一 段 时 间 的 同事 经 历 。 从 位 短 
的 几 次 接触 中 ， 我 知道 他 在 对 媒体 的 流量 变现 和 需求 方 广告 产品 方面 
都 有 丰富 的 实践 经 验 ， 并 曾 在 Yahoo! Labs 对 计算 广告 领域 进行 过 系统 
性 的 研究 ， 是 对 这 一 领域 做 全 面 总 结 的 合适 人 选 。 如 今 ， 终 于 看 到 他 
不 音 时 间 和 精力 ， 将 计算 广告 领域 的 产品 撤 术 和 商业 逻辑 整理 成 书 ， 
这 将 是 令 整 个 互联 网 工业 界 受 在 之 举 。 

市 看 期 待 读 完 本 书 ， 我 的 第 一 印象 是 ， 其 内 容 全 面 而 富有 条 理 : 
本 书 既 有 计算 广告 全 线 产 品 的 介绍 ， 又 有 对 其 商业 逻辑 和 原理 的 透彻 
解剖 还 有 对 应 的 技术 架构 和 关键 算法 的 深入 讨论 。 男 外 ， 除 了 受众 
定 问 、 点 击 率 预 估 、 实 时 竞价 等 热点 问题 的 讨论 ， 还 有 详尽 的 周边 产 
品 和 技术 的 介绍 。 相 信 认 真 读 完 此 书 的 读者 ， 一 方面 会 对 整个 广告 生 
仿 的 全 貌 有 全 局 性 的 了 解 ， 不 会 只 见 树木 ,不见 森 林 ; 另 一 方面 又 可 


以 按 图 索 驴 ， 再 碰 到 各 种 实际 问题 时 在 本 书 中 找到 具体 思路 甚至 解决 
方案 。 

当然 ， 本 书 的 另外 一 项 重要 意义 就 是 ， 它 是 计算 广告 领域 第 一 本 
系统 性 的 正式 出 版 物 。 非 常 希望 以 此 为 契机 ， 从 合理 配置 资源 的 角度 
出 发 ， 整 个 互联 网 领域 能 够 在 流量 和 数据 变现 上 逐渐 走向 标准 化 与 分 
工 协作 。 这 也 许 会 从 一 个 侧面 促进 中 国 互联 网 企业 摆脱 恶性 竞争 的 办 
徒 困 境 ， 走 向 合作 共 赢 之 路 。 

最 后 ， 祝 换 此 书 的 出 版 ， 并 希望 它 能 够 给 你 些许 启示 。 

王 小 川 ， 搜 狗 公 司 CEO 
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广告 营销 处 在 历史 转折 点 ， 技 术 对 传媒 的 驱动 和 融合 趋势 让 数字 
营销 充满 变数 ， 这 变化 颇 有 乐趣 却 又 让 人 不 安 。 原 因 很 简单 ， 一 方 
面 ， 技 术 张 动 下 的 数字 生态 百花 齐 放 ， 程 序 化 萌 销 渐 入 佳境 ;， 另 一 方 
面 ， 数 字 世 界 各 式 各 样 的 广告 技术 概念 让 市 场 营 销 者 感到 困惑 。 

不 可 和 否认， 营销 行业 有 专业 的 技术 型 人 才 和 数据 科学 家 帮助 我 们 
实践 和 创新 这 些 技术 ， 似 乎 有 了 需要 的 一 切 。 可 想象 一 下 ， 某 个 下 午 
时 光 ， 当 和 我 们 的 客户 坐 在 一 起 ， 他 可 能 会 问 起 这 样 的 问题 : 未 来 你 
们 能 帮 有 我 们 做 什么 ? 

如 果 说 技术 代表 营销 的 未 来 ， 那 么 技术 到 改 是 什么 呢 ? 技术 为 什 
么 存在 ? 技术 可 以 帮助 做 些 什 么 ? 我 常 想 ， 要 拨 开 这 些 技术 迷雾 ， 营 
销 人 具备 的 知识 背景 应 该 能 跨越 技术 理解 的 盲点， 能 洞察 到 真正 关键 
且 清 晰 的 归 因 ， 把 这 些 问 题 的 答案 清晰 和 简单 地 传递 给 我 们 的 客户 。 
所 以 我 期 待 行业 中 有 人 能 把 广告 技术 的 真实 情况 和 作用 讲 出 来 ， 无 论 
是 DSP ` DMP 或 是 RIB 这 些 商 业 产品 概念 ， 还 是 “预测 模型 ”机 器 学 
习 ” 和 “人 群 定向 ”之 类 的 技术 名 词 。 

市 着 这 个 期 待 ， 我 阅读 了 刘 鹏 博士 这 本 广告 技术 专著 。 我 想 说 ， 
我 的 这 些 疑 惑 在 阅读 这 本 书 的 过 程 中 都 得 到 了 解答 或 者 找到 了 线索 。 


刘 鹏 博士 在 互联 网 领域 ， 特 别 和 是 广告 变现 产品 领域 有 痢 非 常 丰 宙 
的 从 业经 验 。 从 雅虎 全 球 人 研发 中 心 到 微软 研究 院 ， 再 到 今天 作为 360 目 
席 商 业 架 构 师 ， 他 有 既 主 持 过 需求 方 营 销 产 品 和 供给 方 变现 产品 的 设计 
开发 ， 又 兼 有 从 产品 到 系统 和 算法 的 全 面 把 握 能 力 ， 而 这 些 经 验 都 成 
了 本 书 丰 富 实 用 内 容 的 基础 。 

一 本 好 的 广告 书 不 会 大 谈 趋势 ， 而 是 会 从 细节 观察 出 发 ， 探 知 商 
业 逻 辑 ， 一 本 好 的 技术 书 不 会 大 谈 和 常识 ， 而 是 剖析 实践 领域 的 真知 灼 
见 。 鹏 博士 编写 的 《计算 广告 》 束 十 这 样 一 本 跨越 领域 、 兼 而 有 之 
的 作品 。 

很 愿意 分 至 两 点 阅读 感受 。 第 一 十 粽 纷 复杂 的 数字 生态 和 技术 说 
mE, MUMS TAT ASTRA ZS, BU BES LA a se 
辑 及 算法 应 用 ， 非 技术 育 景 的 读者 也 能 对 这 些 概念 建立 统一 的 认识 。 
第 二 是 概念 之 外 ， 书 中 列举 了 国际 国内 经 典 的 广告 平台 产品 ， 分 析 其 
形态 、 技 术 、 和 策略， 描绘 了 商业 和 产品 之 间 相 互 关联 、 相 互 促进 的 有 
趣 演进 。 这 些 来 自 于 作者 多 年 从 业 实 践 和 积 过 并 给 宫 销 人 市 来 “互联 网 
+” 的 思考 角度 更 难能可贵 。 而 书 中 列举 了 很 多 详实 的 数据 和 图 例 ， 反 
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如 条 你 需要 了 解 在 线 广告 的 产品 和 技术 ， 束 应 该 马上 行动 ， 打 开 
这 本 书 ， 努 力 去 学 习 和 探索 。 

愿 每 位 从 事 数 字 广 告 事业 的 襄 销 人 ， 都 能 读 到 此 书 。 

李 桂 分 ， 安 吉 斯 媒体 集团 大 中 华 区 衣 席 执行 官 
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互联 网 的 快速 发 展 改变 了 整个 世界 。 从 门户 网 站 到 搜索 引擎 、 从 
社交 网 络 到 电子 商务 ， 从 免费 Wi-Fi 到 应 用 市 场 ， 层 出 不 穷 的 在 线 服务 
不 仅 方便 了 人 们 的 生活 ， 甚 至 帧 履 了 原 有 的 产业 。 而 且 更 为 神奇 的 
征 ， 这 些 服务 大 多 十 免 费 的 。 在 今天 ,“ 互 联网 思维 ”这 个 名 词 被 越 来 
RE SERA TULA NDERMARRE, MER AKA RRE 
于 : 这 么 多 免费 的 服务 是 如 何 获 得 收入 ， 乃 至 赚 得 倪 鳃 钵 满 呢 ?实际 
上 ， 如 采 把 多 样 的 互联 网 产品 或 服务 看 成 各 式 硬 币 的 正面 ， 那 么 我 们 
会 发 现 ， 其 中 许多 硬币 的 背面 部 有 着 一 样 的 图 案 ， 这 束 是 以 广告 为 核 
心 的 后 向 变现 体系 。 正 面 的 免费 服务 是 为 了 获得 流量 和 数据 ， 而 背面 
的 广告 业务 则 是 将 这 些 流量 和 数据 变 成 金钱 ， 这 束 古 互联 网 最 关键 的 
思维 模式 之 一 。 


在 能 够 获得 充分 的 流量 或 高 价值 数据 后 ， 我 们 认为 ， 所 有 能 够 传 
播 信息 的 商品 ， 其 售 价 都 会 趋同 其 边际 成 本 。 这 样 的 观点 对 许多 传统 
行业 商业 模式 的 影响 是 深远 的 ， 也 是 我 们 认为 大 家 应 该 在 互联 网 时 代 
深入 了 解 广 告 ~、 了 解 变现 产品 的 原因 。 因 此 ， 本 书 的 内 容 虽 然 以 介绍 
互联 网 广告 的 产品 和 技术 为 核心 ,但 并 不 是 想 让 大 家 都 学 会 搭建 一 个 
广告 系统 。 我 们 的 核心 目的 ， 是 让 读者 在 清晰 地 了 解 互联 网 广告 全 貌 
的 基础 上 ， 在 过 到 与 后 向 变现 相关 的 产品 问题 时 ， 能 够 以 合理 的 思维 
逻辑 和 背景 知识 来 应 对 。 实 际 上 ， 在 互联 网 时 代 ， 不 论 你 映 处 哪个 行 
业 ， 只 要 用 心 留意 ， 会 发 现 这 类 问题 可 能 比 你 想象 得 更 为 和 常见， 也 更 
为 重要 。 对 其 中 最 重要 的 几 类 问题 ， 我 们 来 看 看 下 面 儿 个 具体 的 例 


(1) 商业 模式 探索 。 例 如 ， 电 影 是 一 种 边际 成 本 很 低 ， 同 时 信息 
传播 量 又 很 大 的 典型 商品 。 那 么 现在 电影 的 票 价 为 什么 这 么 高 ? 能 否 
探索 一 种 售 价 很 低 ， 而 充分 利用 其 信息 传播 能 力 的 电影 行业 发 行 模 
式 ， 获 得 更 高 的 经 济 效 益 和 社会 效益 ? 

(2) 流量 变现 。 例 如 ， 互 联网 电视 厂商 除了 硬件 销售 的 回报 以 
外 ， 还 可 以 获得 一 部 分 用 户 流 量 。 这 些 流量 的 性 质 和 价值 如 何 ， 应 该 
以 什么 方式 变现 ? 

(3) 数据 变现 。 例 如 ， 室 内 导航 技术 是 近年 来 快速 发 展 的 新 型 互 
联网 应 用 。 如 果 以 癌 用 户 免 费 的 方式 运营 室内 导航 产品 ， 会 得 到 什么 


有 价值 的 数据 质 产 ， 从 而 文 撑 相 应 的 后 同 变现 ， 又 应 该 采用 哪 种 具体 
的 商业 产品 来 文 撑 ? 

(4) 商业 产品 建设 和 运营 。 例 如 ， 团 购 、 游 戏 联运 、 返 利 购 买 、 
积分 墙 这 些 推广 模式 与 一 般 的 展示 或 搜索 广告 有 什么 内 在 联系 ? JE 
可 以 共用 某 些 产品 和 技术 平台 ? 

这 4 类 问题 的 典型 性 和 价值 不 言 而 喻 。 不 过 ， 要 回答 这 些 问题 ， 仪 
靠 独 立 的 深入 思考 是 不 够 的 ， 你 还 必须 对 当前 互联 网 流量 和 数据 变现 
市 场 的 商业 逻辑 和 产品 现状 有 相当 程度 的 了 解 ， 并 在 需要 具体 产品 实 
施 时 有 相应 的 方案 可 以 参考 和 选择 。 而 为 读者 提供 这 方面 的 帮助 ， 正 
古本 书 布 望 能 做 到 的 。 

从 传统 的 视角 看 广告 ， 会 有 人 认为 互联 网 服务 中 的 广告 破坏 了 用 
户 体验 ， 这 实际 上 是 一 种 观念 上 的 误解 。 首 先 ， 互 联网 广告 不 再 像 线 
下 广告 那样 ， 以 宣教 性 的 横幅 为 主 ， 而 是 以 各 种 目 动 决策 的 付费 信息 
的 方式 存在 ， 这 其 中 既 包 括 传统 的 创意 形式 ， 也 包括 游戏 联运 、 团 
购 、 返 利 、 原 生 广告 等 更 加 兆 合 用 户 意图 的 新 传播 形式 。 虽 然 ， 从 微 
观 上 看 ， 部 分 不 顾及 媒体 价值 、 育 目 变 现 的 广告 产品 确实 存在 这 样 的 
问题 ， 但 从 宏观 上 看 ， 恰 恰 是 因为 广告 这 一 后 回 变 现 模式 的 存在 ， 互 
联网 产品 的 整体 用 户 体验 才 达 到 了 前 所 未 有 的 高 度 。 在 传统 的 企业 
中 ， 一 般 会 根据 产品 线 分 设 奋 干 事业 部 ， 每 个 事业 部 在 研发 目 己 产 品 
的 同时 还 要 对 营 收 和 利润 负责 。 而 在 互联 网 企业 或 者 按照 互联 网 方式 
运营 的 企业 当中 ， 还 存在 男 外 一 种 组 织 方式 ， 即 面向 用 户 的 免费 产品 


部 门 只 负责 优化 产品 体验 ， 不 对 营 收 负责 ， 而 专门 面向 客户 的 商业 产 
品 部 门 通过 广告 等 后 向 变现 方式 为 企业 创造 营 收 。 实 践 证 明 ， 在 这 样 
的 组 织 方式 下 ， 用 户 产 品 部 门 往往 能 够 心 无 劳 玖 ， 专 心 为 了 提高 用 户 
体验 而 努力 。 因 此 ， 我 们 会 看 到 ， 比 起 传统 软件 企业 ， 互 联网 企业 的 
产品 在 把 握 用 户 需 求 、 优 化 用 户 体验 方面 往往 能 够 做 得 更 加 优秀 。 

因此 ， 在 互联 网 的 世界 里 ， 广 告 不 再 只 是 广告 公司 的 事 ， 而 是 每 
一 个 互联 网 公司 都 要 关心 的 事 。 从 结果 来 看 ， 在 线 广告 实际 上 成 为 互 
联网 最 重要 的 发 动机 。 从 营 收 上 看 ， 它 支撑 着 互联 网 业务 的 大 半壁 江 
We SR, 广告 的 概念 本 身 在 互联 网 业务 中 也 已 经 发 生 了 脱胎 换 骨 的 
变化 : 首先 ， 在 互联 网 广告 中 ， 服 务 于 中 小 商家 、 以 直接 销售 为 目的 
的 广告 取代 品牌 广告 成 为 主流 ， 这 也 创造 了 全 新 的 巨大 市 场 ， 其 次 ， 
它 的 关键 不 再 是 创意 、 俩 略 等 人 工 服 务 ， 而 是 以 数据 文 撑 的 流量 规模 
化 交易 为 典型 特点 。 也 吏 是 说 ， 机 如 和 算法 取代 了 人 员 与 服务 ， 成 为 
在 线 广告 最 鲜明 的 特色 。 可 以 说 ， 互 联网 广告 的 灵魂 就 在 于 数据 与 计 
算 ， 因 此 ， 也 就 产生 了 “计算 广告 * 这 一 名 词 以 及 后 面 复杂 的 产品 与 技 
术 o 

计算 广告 这 个 课题 ， 逐 渐 成 形 于 以 Google AdWords 为 代表 的 竞价 
广告 业务 产生 以 后 ， 并 且 在 展示 广告 进入 程序 化 交易 阶段 以 后 愈加 成 
熟 。 而 将 其 整理 成 一 个 新 的 研究 方向 ， 则 要 归功 于 时 任 Yahoo! 广告 首 
局 科学 家 的 Andrei Broder。 他 在 斯 坦 福 开设 的 “Computational 
Advertising” 这 | ] 课 ， 第 一 次 全 面 而 系统 地 介绍 了 在 线 广 告 中 的 计算 挑 


战 以 及 工业 界 实 用 的 算法 。 既 然 有 了 计算 广告 的 相关 课程 ， 为 什么 还 
要 再 整理 这 本 计算 广告 的 书籍 呢 ? 首先 当然 是 因为 这 一 领域 变化 太 
快 ， 在 “计算 广告 "这 个 词 诞生 后 的 儿 年 里 ， 它 的 内 阐 和 外 延 都 已 经 发 
生 了 重大 的 变化 ， 而 且 这 几 年 的 变化 使 得 这 个 领域 逐渐 完备 起 来 。 
此 ， 有 必要 在 此 时 对 当下 的 计算 广告 领域 做 一 个 阶段 性 的 小 结 。 另 外 
还 有 一 个 重要 原因 : 那 束 古 我 们 在 几 次 计算 广告 的 教学 实践 中 发 现 ， 
对 于 在 校 学 生 或 者 刚刚 接触 此 领域 的 朋友 们 来 说 ， 最 主要 的 理解 障碍 
不 在 于 算法 和 技术 本 吴 ， 而 在 于 广告 的 商业 逻辑 和 产品 目标 。 以 此 为 
出 发 点 ， 本 书 的 组 织 方式 将 以 广告 产品 为 核心 。 在 清楚 地 了 解 计 算 广 
告 的 产品 逻辑 与 商业 价值 的 基础 上 ， 我 们 再 来 有 针对 性 地 讨论 其 中 的 
算法 和 架构 上 问题。 因此， 商业 逻辑 驱动 的 在 线 广告 产品 和 技术 的 升级 
将 是 本 书 最 重要 的 一 条 主线 。 

另外 ， 本 书 还 有 一 条 潜在 的 主线 ， 即 数据 的 加 工 、 利 用 与 交易 。 
熟悉 了 计算 广告 业务 和 产品 的 读者 会 有 认识 ， 广 告 业务 的 收益 只 能 
目 于 三 个 方面 : 数据 、 流 量 和 品牌 属性 。 其 中 后 两 点 是 媒体 的 专属 ， 
而 大 量 的 广告 平台 在 做 的 事情 ， 主 要 束 古 数据 的 加 工 与 利用 。 不 舍 张 
地 说 ， 计 算 广 告 对 于 数据 利用 的 广度 和 深度 是 空前 的 ， 而 且 产 业 的 各 
环节 也 十 比较 完备 的 。 在 各 行 各 业 都 在 强调 大 数据 思维 与 方法 的 今 
天 ,深入 了 解 计算 广告 产品 与 技术 具有 特别 强 的 范本 意义 。 因 此 ， 本 
书 在 内 容 组 织 上 特别 强调 数据 这 条 线索 ， 努 力 同 读 者 解释 清楚 如 何在 

告 产品 进化 过 程 中 一 步 步 地 更 有 效 地 利用 数据 。 


读者 对 象 

既然 在 线 广告 不 再 只 是 广告 公司 的 事 ， 那 么 需要 了 解 这 一 业务 及 
其 背后 产品 技术 的 人 群 也 殉 相 当 广 泛 了 。 我 们 希望 下 面 几 类 读者 可 以 
从 本 书 中 找到 有 价值 的 内 容 。 

(1) 互联 网 公司 商业 化 部 门 的 产品 、 技术 和 运营 人 员 。 对 互联 网 
公司 来 说 ， 商 业 化 产品 中 最 重要 的 殉 是 广告 产品 ， 不 过 我 们 发 现 ， 轩 
于 各 公司 具体 的 产品 形态 ， 仪 仅 从 目 己 的 业务 中 全 貌 地 了 解 广 告 产品 
技术 并 不 容易 。 因 此 ， 本 书 最 主要 面向 的 读者 束 是 这 些 广 告 产 品 相 关 
的 人 员 ， 项 望 他 们 通过 阅读 此 书 ， 对 互联 网 广告 的 全 貌 以 及 复杂 的 技 
术 产 品系 列 有 整体 的 了 解 ， 避 人 免 只 见 树木 不 见 森 林 。 

(2) 对 个 性 化 系统 、 大 数据 变现 或 交易 有 兴趣 者 。 计 算 广 告 在 各 
种 个 性 化 系统 中 具有 典型 性 ， 又 因为 其 商业 逻辑 的 存在 而 相对 复杂 ; 
此 外 ， 计 算 广 告 还 催生 了 对 大 规模 数据 利用 和 变现 的 直接 市 场 。 因 
此 ， 推 荐 等 个 性 化 系统 的 产品 技术 人 员 以 及 大 数据 相关 的 产品 技术 人 
员 都 非常 有 必要 通过 了 解 计 算 广告 的 产品 和 技术 ， 对 个 性 化 系统 以 
构 、 约 束 下 的 效果 优化 、 大 数据 变现 和 交易 等 诸多 问题 在 实际 工业 界 
的 落地 有 一 定 的 理解 。 

(3) 传统 企业 互联 网 化 进程 的 决策 者 。 传 统 企业 在 互联 网 化 的 过 
程 中 需要 借鉴 的 绝 不 仅仅 是 利用 互联 网 的 技术 和 产品 ， 更 重要 的 是 按 
照 互 联网 企业 形成 的 高 效 运 营 和 变现 模式 来 改造 传统 业务 。 从 这 个 意 
义 上 说 ， 互 联网 企业 以 广告 为 基础 的 后 向 变 现 体系 是 整个 互联 网 化 过 


程 中 至 关 重 要 的 一 环 。 因 此 ， 在 这 样 的 传统 企业 中 ， 互 联网 化 进程 的 
决策 首 对 广告 的 原理 和 市 场 必 须 有 一 定 程 度 的 了 解 。 

(4) 传统 广告 业务 的 从 业者 。 传 统 广告 业务 与 互联 网 广告 业务 既 
有 和 密切 的 联系 义 存在 着 巨大 的 差别 。 以 技术 为 导向 、 精 准 地 面向 受众 
的 广告 策略 正 深刻 地 影响 这 整个 广告 市 场 。 并 且 随 大 互 联网 广告 规模 
的 迅速 扩大 ， 这 样 的 集 略 越 来 越 为 广告 主 接 受 和 青睐 。 因 此 ， 传 统 
告 业务 的 从 业者 必须 要 顺应 潮流 ， 理 解 和 运用 计算 广告 的 方法 与 策 
略 ， 将 线 下 资源 与 线 上 资源 整合 起 来 ， 才 能 更 好 地 服务 于 广告 主 和 媒 
体 。 


(5) 互联 网 创业 者 。 我 们 接触 过 不 少 互联 网 行业 的 创业 者 ， 对 他 
们 来 说， 找到 用 户 产品 的 痛 点 并 漂亮 地 解决 问题 往往 并 不 是 十 分 困 
难 。 不 过 ， 一 个 企业 最 终 需要 的 是 利润 ， 而 许多 对 变现 逻辑 和 思考 方 
法 不 邯 悉 的 创业 者 往往 面 对 产 品 得 到 的 流量 和 数据 不 知 所 措 ， 而 商业 
化 进程 的 缓慢 也 会 大 大 拖 慢 用 户 产 品 的 运营 进度 ， 甚 至 因此 错过 企业 
的 黄金 发 展 机 会 。 从 这 个 意义 上 说 ， 了 解 一 些 流量 与 数据 变现 的 思路 
无 疑 会 对 创业 方 癌 的 选择 、 创 业 过 程 的 加 速 、 创 业 末 实 的 收获 都 有 巨 
大 的 帮助 。 

(6) 计算 机 相关 专业 研究 生 。 计 算 广告 的 人 才 在 互联 网 行业 相当 
稀缺 ， 而 目前 学 校对 这 样 与 工业 界 头 系 密切 的 实际 问题 在 教育 上 是 有 
些 脱节 的 。 我 们 整理 此 书 的 一 个 重要 目的 是 希望 为 具有 一 定 的 计算 机 
科学 基础 并 且 对 工业 界 实 际 问题 有 兴趣 的 同学 们 提供 一 次 指导 旅行 ， 


让 他 们 对 思考 和 设计 商业 产品 、 运 用 技术 解决 产品 问题 形成 正确 的 思 
考 方法 。 

内 容 组 织 

前 面 说 过 ， 我 们 整理 本 书 ， 并 不 是 简单 地 为 了 介绍 计算 广告 的 产 
品 和 技术 ， 更 重要 的 目的 是 布 望 提供 一 个 新 的 视角 ， 让 大 家 通过 了 解 
广告 变现 的 内 在 逻辑 ， 进 而 对 互联 网 时 代 的 用 户 产品 如 何 将 体验 做 到 
极致 、 将 变现 做 到 最 高 效 有 一 个 宏观 的 认识 。 在 我 们 看 来 ， 如 果 不 了 
解 广告 变现 产品 和 市 场 ， 束 谈 不 上 真正 透彻 地 了 解 互 联网 ， 也 一 定 会 
在 用 户 产品 的 设计 和 运营 上 有 诸多 学 肘 。 基 于 这 样 的 目的 ， 本 书 在 内 
容 上 组 织 成 三 个 部 分 

(1) 第 一 部 分 介绍 在 线 广告 领域 的 一 些 基本 问题 和 背景 知识 。 虽 
然 内 容 比 较 容易 理解 ， 但 这 部 分 是 全 书 的 基础 ， 特 别 是 对 很 多 相关 概 
念 和 术语 的 集中 介绍 ， 请 不 要 略 过 

(2) 第 二 部 分 主要 面向 产品 、 运营 、 销 售 等 人 员 ， 以 及 互联 网 产 
品 的 宏观 决 岳 者 ， 其 内 容重 点 在 于 介绍 计算 广告 的 市 场 结构 、 交 易 模 
式 和 主要 产品 。 这 部 分 内 容 将 依 在 线 广告 产品 发 展 的 顺序 展开 ,希望 
能 帮助 大 家 理解 各 种 复 洒 的 广告 产品 和 交易 机 制 产 生 的 内 在 规律 。 

(3) 第 三 部 分 主要 面向 系统 工程 师 、 算 法 工程 师 和 架构 师 。 与 前 
一 部 分 的 广告 产品 相对 应 ， 这 部 分 也 以 在 线 广告 产品 发 展 的 顺序 ， 重 
点 阐释 实现 各 种 广告 产品 的 关键 技术 挑战 ， 并 提供 基础 的 解决 方案 。 


一 般 来 说 ， 对 于 那些 想 运 营 一 项 在 线 广 告 业务 ， 或 者 想 了 解 如 何 
用 在 线 广告 对 用 户 产 品 怎样 变现 的 读者 来 说 ， 可 以 重点 阅读 第 一 部 分 
和 第 二 部 分 ， 并 且 对 其 中 的 产品 与 商业 逻辑 要 深入 理解 ， 对 于 那些 重 
点 关注 工程 实现 和 收入 优化 的 读者 来 说 ， 在 了 解 了 前 面 两 部 分 之 后 ， 
还 要 伦 一 些 精力 深入 阅读 第 三 部 分 ， 特 别 是 其 中 与 目 己 关注 的 广告 产 
品 相关 的 技术 章节 。 计 算 广 告 这 个 领域 的 复杂 性 在 于 ， 对 于 任何 一 项 
产品 或 技术 都 需要 放 在 相应 的 商业 育 景 下 去 判断 其 合理 性 ;而 想 要 了 
解 商 业 产 品 上 能 达到 的 目标 ， 还 需要 对 技术 的 现状 和 难点 有 相当 的 认 
识 。 因 此 ， 我 们 推荐 的 阅读 方式 还 是 尽 可 能 地 通读 全 书 ， 对 其 中 确实 
不 相关 或 者 知识 背景 上 无 法 理解 的 部 分 位 单 跳 过 整 可 以 了 。 男 外 ， 除 
第 10 章 外 ， 其 他 各 章 结束 后 我 们 都 准备 了 才干 开放 性 的 延伸 思考 问 
题 。 这 些 问 题 往 往 并 没有 确定 的 标准 答案 ， 只 是 为 了 帮助 大 家 进一步 
深入 思考 该 章 中 的 关键 或 有 趣 的 问题 。 

在 讨论 在 线 广告 市 场 的 产品 技术 过 程 中 ， 会 涉及 大 量 的 术语 和 专 
业 名 词 。 对 于 对 变现 业务 不 太 熟 悉 的 读者 来 说 ， 这 些 术 语 会 给 阅读 市 
来 一 定 的 障碍 。 为 了 帮助 读者 检索 和 查找 术语 的 相关 内 容 ， 我 们 在 附 
杂 中 对 主要 术语 及 缩写 给 出 了 索引 ， 以 方便 大 家 的 阅读 。 

由 于 篇 幅 限 制 ， 本 书 中 有 些 内 容 的 细节 或 育 景 知识 无 法 全 面 展 
开 ， 在 这 种 情形 下 会 给 出 相应 的 参考 文献 。 但 是 由 于 本 书 并 非 学术 闭 
作 ， 在 引用 文献 时 并 不 会 保证 完备 性 ， 因 此 当 正 文 足以 说 明 观 点 和 方 
法 时 其 原始 文献 不 一 定 还 会 列 出 ， 请 读者 谅解 。 男 外 ， 在 本 书 的 第 三 


部 分 中 ， 为 帮助 读者 理解 ， 会 对 一 些 比较 关键 的 算法 给 出 相应 的 代码 
片段 。 不 过 本 书 中 的 代码 都 是 示例 性 代码 ， 目 的 仅仅 是 为 了 更 清楚 地 
描述 逻辑 ， 而 并 非 可 以 直接 编译 执行 的 程序 ， 其 中 一 些 特别 容易 理解 
实现 的 子 丽 数 调用 也 可 能 会 略 去 其 具体 实现 。 

本 书 的 内 容 主要 是 由 刘 鹏 在 清华 大 学 的 公开 课 ， 以 及 在 北京 大 
学 、 北 京 航空 航天 大 学 的 研究 生 课 程 的 内 容 整 理 加 工 而 成 的 ， 并 且 在 
整理 时 针对 更 广泛 的 读者 群体 做 了 内 容 本 身 和 顺序 上 的 调整 。 在 两 位 
作者 中 ， 刘 觅 为 主要 执笔 者 ， 负 责 主 体 部 分 的 写作 和 内 容 的 整体 组 
织 ， 王 超 负责 其 中 产品 案例 和 算法 示例 代码 的 部 分 。 由 于 作者 的 水 平 
有 限 ， 再 加 上 时 间 仓 促 ， 书 中 难免 出 现 错漏 之 处 ， 敬 请 读者 多 多 批评 
指正 。 此 外 ， 本 书 撰写 的 过 程 中 ， 我 们 邀请 了 一 些 业内 的 专家 和 从 业 
者 帮忙 对 内 容 进行 把 关 ， 得 到 了 他 们 的 很 多 有 益 的 建议 ， 这 些 建议 使 
本 书 更 加 完备 和 实用 ， 我 们 在 此 一 并 表示 感谢 ， 并 将 其 中 部 分 专家 对 
本 书 的 评价 附 在 书 中 。 
本 书 由 l'ePUBw COM #38, ePUBw.COM 提 


供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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Bie 在 线 广 告 综 述 


在 线 广告 ， 也 称 为 网 络 广 告 、 互 联网 广告 ， 顾 名 思 义 ， 指 的 是 在 
线 媒 体 上 投放 的 广告 。 与 传统 广告 不 同 的 是 ， 在 线 广告 在 其 短 短 十 几 
年 的 发 展 过 程 中 ， 已 经 形成 了 以 人 群 为 投放 目标 、 以 产品 为 导 癌 的 技 
术 型 投放 模式 。 在 线 广 告 不 仅 为 广告 主 市 来 了 以 准确 接触 目标 受众 为 
方法 论 的 全 新 的 营销 渠道 ， 也 为 互联 网 免费 产品 和 媒体 提供 商 们 找到 
了 规模 化 变现 的 手段 。 可 以 说 ， 不 论 你 在 做 一 款 用 户 产 品 还 是 商业 产 
品 ， 不 深入 了 解 在 线 广告 ， 束 不 太 可 能 全 面 地 了 解 互联 网 业务 。 因 
此 ， 所 有 互联 网 行业 的 从 业者 们 论 一 些 时 间 把 现代 的 在 线 广告 原理 和 
产品 搞 清 楚 ， 不 仅 是 有 益 的 ， 而 且 是 必须 的 。 

从 另外 一 个 角度 ， 即 数据 的 角度 来 看 ， 在 线 广 告 开局 了 大 规模 、 
目 动 化 地 利用 数据 改善 产品 和 提高 收入 的 先河 。 可 以 不 压 张 地 说 ， 在 
过 去 相当 长 的 一 段 时 期 内 ， 大 数据 (big data) 这 一 方法 论 在 实践 中 唯 
一 形成 规模 化 膏 收 的 落地 行业 束 是 在 线 广告 ， 只 不 过 当年 大 数据 这 个 
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为 成 熟 、 市 场 规模 最 大 的 行业 。 因 此 ， 对 大 数据 感 兴趣 的 读者 认真 研 
守 在 线 广告 发 展 过 程 中 遇 到 的 技术 挑战 和 产品 问题 ， 会 对 探索 其 他 的 


大 数据 应 用 有 更 大 的 帮助 。 


熟悉 在 线 广 告 市 场 的 朋友 都 知道 ， 这 一 领域 的 产品 形态 和 业务 逻 
辑 相 当 复 杂 。 为 了 对 在 线 广 告 有 宏观 上 的 把 握 ， 我 们 在 本 章 中 将 从 两 
个 方面 来 探讨 : 一 和 是 它 的 内 润 ， 即 这 种 商业 活动 的 定义 与 目的 ;二 和 是 
它 的 外 延 ， 即 在 线 广 告发 展 的 价 要 历史 和 发 展 过 程 中 产生 的 关键 产品 
形态 。 对 其 中 的 许多 概念 和 观点 ， 读 者 未 必 能 够 马上 形成 清晰 的 印 
象 ， 然 而 随 着 内 容 的 展开 ， 读 者 能 够 刊 皇 抽 丝 般 层 层 递 进 地 加 深 理 
解 ， 这 正 是 本 书 和 希望 做 到 的 。 另 外 ， 本 章 还 有 另外 一 个 目的 ， 融 是 尽 
可 能 集中 地 介绍 互联 网 广告 的 产品 和 技术 术语 ， 以 方便 后 面 的 讨论 。 

相 比 传统 的 线 下 广告 ， 在 线 广 告 的 产品 和 创意 形式 由 于 互联 网 媒 
体形 态 、 交 互 方式 等 方面 存在 非 闸 大 的 夸 异 ， 也 呈现 出 各 种 各 样 的 表 
现形 式 。 我 们 也 将 对 其 中 比较 常见 的 创意 形式 作 人 简要 介绍 ， 项 望 读者 
能 对 在 线 广告 的 具体 表现 有 直观 的 了 解 。 

本 章 的 内 容 与 计算 基本 无 关 ， 目 的 在 于 让 读者 在 进入 计算 广告 领 
域 之 初 束 建立 起 一 些 重要 观念 。 首 和 完 ， 广 告 不 完全 等 同 于 搜索 或 推 
存 ， 它 首先 是 一 项 商业 活动 ， 然 后 才 是 一 项 在 互联 网 环境 下 需要 技术 
优化 的 商业 活动 ， 其 次 ， 在 这 一 商业 活动 中 ,广告 主 、 媒 体 和 用 户 的 
利益 都 需要 被 认真 考虑 和 满足 ， 这 样 才能 达到 整个 市 场 的 平衡 和 不 断 
发 展 。 在 线 广告 市 场所 有 产品 和 商业 形式 的 演进 ， 都 是 在 这 一 主题 下 
发 生 的 。 在 两 业 逻辑 的 框架 下 思考 和 探索 计算 广告 技术 对 理解 本 书 中 
提 到 的 产品 、 架构 和 算法 非常 关键 。 


1.1 大 数据 与 广告 的 关系 


近年 来 ， 大 数据 思维 和 技术 渐 成 显 学 。 然 而 ， 大 数据 这 一 概念 至 
今 为 止 并 没有 一 个 内 涵 上 准确 的 界定 。 在 参考 文献 [56] 中 ， 作 者 用 
Volume (规模 ) ^ Variety (多 样 性 ) ^ Velocity (高 速 ) 和 Value (ffr 
值 ) ， 即 所 谓 的 4V 特 征 来 描述 大 数据 问题 的 特性 ， 但 并 没有 给 出 这 类 
问题 的 界定 标准 。 然 而 ， 从 实际 操作 的 角度 来 看 什么 是 大 数据 问题 或 
许 要 比 理 论 上 的 定义 简单 一 些 : 如 果 有 的 数据 处 理 问 题 无 法 通过 数据 
采样 的 方法 来 降低 处 理 的 复杂 程度 ， 就 必须 利用 一 些 专门 为 海量 数据 
处 理 而 设计 的 计算 和 存储 技术 〈 如 MapReduce、NoSQL 数 据 库 等 ) 来 
实现 。 于 是 ， 这 样 的 问题 也 就 从 工程 上 归 为 大 数据 问题 ， 图 1-1 阐 释 了 
这 一 视角 。 


问题 的 目标 函数 


C 


1% 10% 100% 


图 1-1 大 数据 问题 的 特性 示意 
在 图 1-1 中 ， 我 们 考察 的 是 某 一 个 有 确定 目标 函数 的 数据 处 理 问 
题 。 图 中 的 三 条 曲线 是 三 类 有 代表 性 的 数据 问题 。 

(1) C 类 问题 。 从 工程 方便 的 角度 来 看 ， 如 果 通 过 数据 采样 能 够 
显著 降低 数据 处 理 的 复杂 程度 ， 同 时 解决 问题 的 效果 《〈 即 目标 函数 ) 
没有 太 大 的 下 降 ， 那 么 显然 应 该 这 样 做 。 这 类 问题 可 以 用 图 1-1 中 的 C 
曲线 来 示意 。 由 于 可 以 通过 很 低 的 采样 率 解 决 问题 ， 并 不 需要 大 规模 
分 布 式 的 计算 架构 ， 用 传统 的 数据 方案 束 可 以 解决 ， 因 此 ， 这 类 问题 


应 该 归 为 传统 数据 处 理 问 题 ， 而 非 大 数据 问题 。 一 般 的 统计 报表 、 报 
告 等 往往 属于 这 类 问题 。 

(2) A 类 问题 。 另 外 有 一 些 数 据 问题 基本 上 不 可 能 通过 只 处 理 一 
小 部 分 数据 来 达到 处 理 全 量 数据 所 能 达到 的 效果 ， 或 者 说 随 着 数据 采 
样 率 的 降低 ， 解 决 问 题 的 收益 会 快速 下 降 ， 这 类 问题 是 典型 的 大 数据 
问题 ， 用 图 1-1 中 的 A 曲线 来 示意 。 由 于 需要 处 理 大 规模 的 全 量 数 据 ， 
传统 的 存储 和 计算 以 构 都 不 再 合适 ， 必 须 寻 找 新 的 方案 ， 这 实际 上 是 
推动 大 数据 技术 发 展 的 原动力 。 个 性 化 推荐 (personalized 
recommendation) 和 计算 广告 (computational advertising) 需要 用 到 每 
一 个 人 的 行为 进行 定制 化 推送 ， 而 无 法 只 采样 其 中 的 一 部 分 人 来 处 
理 ， 因 此 可 以 认为 是 典型 的 大 数据 问题 。 大 数据 问题 由 于 无 法 利用 传 
统 的 计算 架构 和 数据 仓库 来 处 理 ， 因 此 才 会 产生 Hadoop 等 独 的 基础 设 
施 和 NoSQL 数 据 存 储 等 技术 。 

(3) B 类 问题 。 当 然 ， 实 践 当中 大 数据 问题 和 一 般 数 据 处 理 问题 
并 不 是 泾 渭 分 明 的 。 有 一 些 问 题 ， 其 处 理 效果 随 着 数据 量 的 上 升 有 一 
定 提 高 ， 但 当 数 据 大 到 一 定 规模 以 后 ， 再 增加 数据 量 价 值 就 不 大 了 ， 
这 类 问题 可 以 用 图 1-1 中 的 B 曲线 来 示意 。 一 个 典型 的 例子 是 文本 主题 
RA! (topic model) ° 我们 用 1000 万 文档 往往 会 得 到 比 10 万 文档 更 稳 
定 、 更 有 意义 的 主题 ， 然 而 用 10 亿 文档 和 用 1 亿 文 档 差别 可 能 就 会 不 那 
么 明显 。 在 解决 这 类 问题 时 ， 往 往 是 选取 一 个 有 较 大 规模 但 并 非 全 量 
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的 数据 集 来 处 理 。 针 对 这 种 中 等 规模 问题 上 的 复杂 算法 ， 也 产生 了 像 
Spark 这 样 更 加 灵活 高 效 的 计算 框架 。 

很 显然 ， 从 以 上 观点 出 发 ， 计 算 广 告 是 非常 典型 的 大 数据 应 用 。 
实际 上 ， 在 以 往 相 当 长 的 一 段 时 期 里 ， 我 们 认为 唯一 得 到 充分 两 业 化 
和 规模 化 的 大 数据 应 用 束 是 计算 广告 。 计 算 广告 为 各 行 各 业 大 数据 的 
落地 提供 了 非常 有 价值 的 借鉴 范本 ， 下 面 儿 点 区 其 值得 了 解 和 关注 。 

(1) 计算 广告 为 规模 化 地 将 用 户 行为 数据 转化 为 可 衡量 的 商业 价 
值 提供 了 完整 产品 线 和 解决 方案 ， 并 且 实 际 上 创造 了 互联 网 行业 大 部 
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(2) 在 线 广告 孕育 和 孵化 了 较为 成 熟 的 数据 加 工 和 交易 产业 链 ， 
并 对 其 中 的 用 户 隐 私 边界 有 深入 探讨 ， 这 值得 所 有 涉及 用 户 数据 的 互 
联网 应 用 学 习 和 借鉴 。 

(3) 由 于 有 了 商业 上 的 限制 条 件 ， 计 算 广 告 的 技术 和 产品 逻辑 比 
单纯 的 个 性 化 系统 更 加 复杂 周密 。 因 此 ， 理 解 在 线 广告 的 产品 和 市 场 
对 于 设计 正确 有 效 的 商业 产品 大 有 益处 。 

由 于 以 上 这 些 原因 ， 如 果 你 是 一 位 从 事 大 数据 或 商业 产品 的 产品 
经 理 、 工 程 师 或 管理 者 ， 我 们 强烈 建议 你 认真 了 解 一 下 广告 的 产品 和 
技术 ， 相 信 你 一 定 会 有 很 大 的 收获 ， 也 会 快捷 地 了 解 到 这 一 领域 真正 
有 挑战 的 问题 是 什么 。 本 着 这 样 的 目的 ， 我 们 在 本 书后 续 部 分 中 将 广 
告 市 场 的 产品 和 技术 演进 作为 一 条 明 的 主线 ， 而 将 这 一 市 场 对 数据 的 


利用 程度 作为 一 条 暗 的 主线 来 展开 。 硕 望 读者 能 够 通过 阅读 本 书 ， 具 
体 地 了 解数 据 是 如 何 通 过 广告 市 场 规模 化 地 创造 商业 价值 的 。 


1.2 广告 的 定义 与 目的 


在 了 解 计算 广告 之 前 ， 我 们 先 从 了 解 一 般 广告 的 目的 开始 。 什 么 

是 广告 ? 可 以 参考 William F.Arens 在 《当代 广告 学 》* 中 给 出 的 定义 : 

告 是 由 已 确定 的 出 资 人 通过 各 种 媒介 进行 的 有 关 产 品 (商品 、 
服务 和 观点 ) 的， 通常 是 有 偿 的 、 有 组 织 的 、 综 合 的 、 劝 服 性 的 非 人 
员 的 信息 传播 活动 。 

这 一 定义 中 有 两 个 关键 点 。 首 先 ， 它 指出 了 广告 活动 的 两 个 主动 
参与 方 资 人 (sponsor) 和 媒体 (medium) 。 在 数字 广告 这 样 更 
加 复杂 的 市 场 结构 中 ， 我 们 可 以 用 一 般 性 的 术语 来 描述 它们 : 需求 方 

(demand) 和 供给 方 (supply) 。 这 里 的 需求 方 可 以 是 广告 主 
(advertiser) 、 代 表 广 告 主 利益 的 代理 商 (agency) 或 其 他 技术 形态 的 
采 买 方 ; 这 里 的 供给 方 可 以 是 媒体 ， 也 可 以 是 其 他 技术 形态 的 变现 平 
台 。 男 外 ， 要 特别 注意 的 是 ， 广 告 还 有 一 个 被 动 的 参与 方 ， 即 受众 
(audience) 。 请 大 家 从 现在 开始 就 牢 牢 建立 起 这 样 的 概念 ， 出 资 人 、 
媒体 和 受众 这 三 着 的 利 苍 博弈 关系 是 广告 活动 永远 的 主线 ， 这 一 主线 
将 贯 罕 于 商业 和 产品 形态 的 整个 演化 过 程 。 男 外 ， 该 定义 还 阐明 了 广 
各 必须 是 有 偿 的 、 非 人 员 的 信息 传播 活动 。 这 两 点 限制 ， 前 着 使 得 广 


告 的 目标 变 得 明确 ， 后 者 使 得 这 一 目标 可 以 采用 计算 的 方式 来 优化 ， 
而 这 些 都 是 计算 广告 产生 的 基础 。 

广告 这 一 商业 行为 ， 其 本 质 目的 是 什么 呢 ? 在 不 同 的 时 代 ， 广 告 
主 与 媒体 对 这 一 问题 存在 着 不 同 的 认 知 。 在 传统 媒体 时 代 ， 供 给 方 与 
需求 方 在 市 场地 位 上 有 相当 的 距离 ， 不 论 你 运营 的 是 电视 台 、 机 场 或 
杂志 ， 都 与 大 多 数 广 告 主 需要 的 转化 行为 之 间 有 相当 大 的 差距 。 
此 ， 这 一 阶段 广告 的 目的 是 希望 借助 媒体 的 力量 来 快速 接触 大 量 用 
户 ， 以 达到 宣传 品牌 形象 、 提 升 中 长 期 购买 率 与 利润 空间 的 目的 。 这 
种 目的 的 广告 称 为 品牌 广告 (brand awareness) 。 当 然 ， 也 有 许多 广告 
商 布 望 能 利用 广告 手段 马上 市 来 大 量 的 购 关 或 其 他 转化 行为 ， 这 种 目 
的 的 广告 称 为 直接 效果 广告 (direct response) ， 有 时 也 简称 为 效果 广 

在 传统 广告 产品 中 ， 大 量 投 送 和 优化 效果 广告 的 能 力 显然 是 缺乏 
的 。 这 征 因 为 ， 对 短期 效果 的 奶 求 要 求 广告 精准 地 送 达 目 标 人 群 ， 而 
这 在 传统 媒体 上 人 缺乏 有 效 的 技术 手段 。 我 们 能 够 想起 的 以 效 末 为 目的 
的 传统 广告 恕 怕 只 有 在 写字 楼 下 散发 的 快餐 传单 ， 而 数字 媒体 的 出 现 
使 得 效果 广告 空前 着 动 地 发 展 起 来 。 这 主要 有 两 方面 的 原因 : 一 是 数 
字 媒 体 的 特点 可 以 让 我 们 低 成 本 地 投 送 个 性 化 广告 ， 二 是 一 些 在 线 服 
务 ， 如 搜索 、 电 子 商务 ， 由 于 可 以 更 清楚 地 了 解 用 户 的 意图 ， 也 就 使 
广告 效果 的 优化 更 加 容易 。 


互联 网 广告 兼 有 品牌 和 效 琳 两 方面 的 功能 。 不 过 要 说 明 的 是 ， 到 
目前 为 止 ， 互 联网 广告 行业 的 高 速 发 展 主要 是 由 于 效果 广告 市 场 带 来 
的 巨大 红利 。 从 表 1-15 中 可 以 看 出 ， 网 络 广 告 的 市 场 规模 发 展 迅 猛 ， 与 
此 同时 ， 传 统 广 告 渠道 则 增长 乏力 或 快速 下 降 。 对 比 来 看 ， 网 络 广告 
的 迅猛 成 长 并 没有 直接 市 来 电视 广告 的 市 场 萎缩 。 这 是 因为 网 络 广告 
的 主要 场景 仍然 集中 在 搜索 引擎 营销 、 效 果 类 广告 网 络 等 直接 效果 类 
的 广告 活动 上 ， 而 这 部 分 相对 于 电视 的 品牌 广告 更 多 地 十 增 量 而 非 替 
代 。 允 一 方面 ， 报 纸 广告 则 随 着 互联 网 的 快速 崛起 而 下 降 ， 这 一 方面 
征 因 为 报纸 后 据 的 用 户 时 间 大 幅 被 互联 网 抢 走 ， 必 外 也 十 由 于 报纸 上 

分 的 分 类 信息 广告 与 互联 网 效果 类 广告 重 谷 较 大 。 目 前 ， 随 着 数 
字 媒 体 越 来 越 多 地 占据 了 和 人们 的 时 间 以 及 在 线 视 频 等 冲击 力 更 强 的 炬 
体 的 普及 ， 网 络 渠道 也 必 将 在 品牌 广告 方面 有 更 多 的 用 武之 地 。 

表 1-1 中 美 主要 广告 市 场 规模 M: (LEI) 
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既然 有 品牌 和 歼 末 这 两 种 目标 ， 完 竟 如 何 摘 述 广告 这 种 商业 活动 
的 根本 目的 呢 ， 我 们 仍然 借用 《当代 广告 学 》 中 的 见解 : 

广告 的 根本 目的 是 广告 主 通 过 媒体 达到 低 成 本 的 用 户 接触 。 

也 束 是 说 ， 按 某 种 市 场 意图 接触 相应 的 人 群 ， 进 而 影响 其 中 的 潜 
在 用 户 ， 使 他 们 选择 广告 主 产 品 的 几率 增加 ， 或 者 对 产品 性 价 比 的 坷 
求 程度 降低 ， 这 才 是 广告 的 根本 目的 。 至 于 短期 内 的 转化 效果 ， 由 于 
市 场 意图 或 媒体 性 质 的 不 同 ， 并 不 是 直接 可 比 。 换 句 话 说 ， 如 果 仅 仅 
以 转化 效 末 为 目的 来 思考 问题 ， 可 能 会 表 离 投放 广告 的 正确 方法 论 。 
举 个 例子 ， 某 感冒 药 广 告 商 如 果 以 短期 效果 为 导向 ， 那 么 最 佳 的 策略 
是 把 广告 投放 给 那些 现在 感冒 的 人 ， 不 过 这 显然 是 一 个 碗 雇 的 决策 ， 
再 比如 ， 某 汽车 广告 商 为 了 提升 自己 的 品牌 形象 ， 硕 望 对 目 己 竞 品 品 
牌 的 用 户 加 强 宣 传 ， 而 对 于 这 部 分 人 群 ， 广 告 的 直接 效果 甚至 有 可 能 
比 随 机 投放 还 要 差 。 认 清 这 一 概念 ， 使 得 大 家 在 遇 到 多 种 广告 渠道 的 
AR LE BAY Be Ne hE oe RA Ye RPI, AA Ge S H 
(integrated marketing) 的 概念 ， 即 通过 多 种 渠道 的 有 机 配合 来 达到 整 
体 投放 效果 的 最 优 ， 这 并 非 本 书 讨 论 的 重点 ， 有 兴趣 的 读者 可 以 参考 
其 他 文献 。 

广告 的 * 低 成 本 ?是 与 那些 由 市 场 或 销售 人 员 完 成 的 劝 服 活动 成 本 
相对 而 言 的 ， 实 际 上 是 广告 搭 了 媒体 流量 和 影响 力 的 便 车 。 要 确定 是 
否 真 的 成 本 较 低 ， 需 要 用 到 投入 产 出 比 (Return On Investment, ROI) 
这 一 评价 指标 ， 即 某 次 广告 活动 的 总 产 出 与 总 投入 的 比例 。 在 实际 


中 ,广告 活动 的 总 投入 容易 确定 ， 但 总 产 出 的 确定 却 不 那么 容易 ， 特 
别 是 在 投放 以 中 长 期 收益 为 目标 的 品牌 广 千 时。 因此， 绝对 的 ROI 有 
时 难以 计算 ， 不 过 通过 各 个 渠道 之 间 的 对 比 ， 我 们 仍然 可 以 评估 广告 
的 成 本 是 否 令 人 满意 。 

需要 说 明 ， 在 互联 网 环境 中 ， 广 告 的 本 质 虽然 没有 变化 ， 但 是 由 
于 大 量 直接 效果 需求 的 产生 ， 其 表现 形式 越 来 越 丰富 和 灵活 了。 不 论 
征 与 线 下 类 似 的 横幅 、 搜 索 竞 价 排 名 ， 还 是 软文 ， 甚 至 是 表面 上 与 广 
告 并 不 相干 的 游戏 联运 ， 其 本 质 都 是 付费 的 信息 推广 ， 从 产品 和 技术 
的 角度 来 看 都 可 以 归 在 广告 的 范畴 下 。 因 此 ， 对 于 互联 网 广告 ， 我 们 
有 如 下 的 认识 : 

一 切 付费 的 信息 、 产 品 或 服务 的 传播 渠道 ， 部 是 广告 。 

那么 ， 在 线 广告 主要 有 哪些 表现 形式 呢 ? 我 们 将 在 1.3 世 中 介绍 。 


1.3 在 线 广告 创意 类 型 


在 线 广 告 除了 产品 有 诸多 形态 ， 与 用 户 接触 的 创意 形式 也 有 多 种 
多 样 的 选择 ， 并 且 随 着 互联 网 产品 的 发 展 变 得 越 来 越 丰 富 。 诸 多 在 线 
广告 的 创意 类 型 在 投 送 方 式 和 用 户 交 互 方式 等 方面 有 不 同 的 选择 ， 下 
面 我 们 对 其 中 一 些 闻 见 的 类 型 进行 商 要 介绍 。 

(1) 横幅 广告 (bannerad) 。 这 是 展示 广告 中 最 传统 也 是 最 典型 
的 形式 。 横 幅 广告 一 般 是 嵌入 在 页 面 中 相对 固定 位 置 的 图 片 ， 需 要 占 
据 固 定 的 版 面 ， 因 此 ， 这 种 广告 一 般 要 有 底层 的 备 选 广告 素材 ， 以 防 


没有 合适 的 广告 匹配 时 页 面 上 开 天 窗 。 目 前 ， 横 幅 广告 大 多 数 也 都 不 
再 是 静止 的 图 片 ， 而 是 由 Flash 或 其 他 技术 方式 实现 的 动态 素材 。 图 1-2 
中 给 出 了 横幅 广告 的 一 个 示例 。 
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图 1-2 横幅 广告 示例 
(2) 文字 链 广 告 (textual ad) 。 这 种 广告 的 素材 形式 是 一 段 链接 
到 广告 主 落地 页 的 文字 ， 在 搜索 广告 中 为 主流 形式 ， 同 时 在 展示 广告 
中 也 被 广泛 采用 。 文 字 链 广告 有 时 像 横幅 广告 那样 占据 固定 的 版 面 ， 
有 时 也 可 以 穿插 在 大 量 内 容 链接 条 目 中 。 在 后 一 种 情形 下 ， 广 告 投放 
引擎 可 以 灵活 决定 是 否 投 出 该 文字 链 广告 ， 以 及 投 出 的 条 目 数 。 典 型 
的 例子 束 古 搜索 广告 ， 如 图 1-3 所 示 。 
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图 1-3 文字 链 广 告示 例 

(3) 富 媒体 广告 (rich media ad) 。 这 类 广告 往往 是 利用 视觉 冲 
击 力 较 强 的 表现 形式 ， 在 不 占用 固定 版 面 位 置 的 情况 下 ， 癌 用 户 侵入 
式 地 投 送 广 告 素 材 。 富 媒体 广告 常见 的 形式 有 弹 窗 、 对 联 、 全 屏 等 。 
它 比较 适合 在 高 质量 的 媒体 做 一 些 品牌 性 质 比 较 强 的 广告 投放 ， 但 是 
对 用 户 的 使 用 体验 往往 影响 也 较 大 。 富 媒体 广告 与 横幅 广告 不 同 ， 在 


未 售 出 的 情况 下 可 以 静默 ， 因 而 没有 防 天 窗 的 问题 。 一 些 门户 网 站 的 
首页 有 时 会 为 菜 个 品牌 广告 主 提供 专门 定制 的 、 区 互 形式 很 复杂 的 台 
媒体 广告 ， 这 样 的 广告 一 般 不 采用 按 人 和 群 投放 的 逻辑 ， 也 主要 强调 创 
意 的 冲击 力 和 交互 形式 的 特色 。 图 1-4 中 给 出 了 一 个 富 媒 体 广告 中 的 弹 
窗 广 告示 例 。 


搜狐 多 媒体 视窗 


图 1-4 富 媒体 广告 示例 
(4) 视频 广告 (videoad) 。 随 着 在 线 视频 的 快速 发 展 ， 在 视频 
流 播放 的 间 隐 插入 的 广告 也 成 为 互联 网 广告 的 一 种 重要 形式 。 根 据 插 
入 位 置 的 不 同 ， 视 频 广 告 勾 可 以 分 为 前 插 片 、 后 择 片 、 暂 停 等 类 型 。 


视频 广告 由 于 载体 的 独特 性 质 ， 其 效果 和 广告 创意 比较 类 似 于 线 下 的 
电视 广告 。 相 应 地 ， 有 关 视 频 广告 的 效果 评价 ， 除 了 计算 与 横幅 广告 
一 样 的 点 击 率 ， 还 可 以 采用 用 户 观 看 时 长 等 更 接近 于 用 户 印 象 的 指 
标 。 

视频 广告 有 两 种 最 主要 的 形式 : 在 视频 内 容 播放 之 前 的 前 播 片 广 
告 以 及 视频 播放 暂停 时 的 广告 。 图 1-5 中 给 出 了 这 两 种 视频 广告 形式 的 
示例 。 前 插 片 广告 一 般 采 用 短视 频 的 形式 ， 创 意 的 冲击 力 和 表现 力 要 
远 远 强 于 普通 的 展示 广告 ， 因 此 价格 往往 也 比较 高 ， 和 暂停 广告 则 与 普 
通 的 横幅 广告 区 别 不 大 。 
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图 1-5 视频 广告 示例 : 前 播 片 广告 Cc) 暂停 广告 CA) 
(5) 社交 广告 (social ad) 。 社 交 网 络 的 兴起 给 广告 的 传播 渠道 
和 能 力 都 赋予 了 新 的 空间 。 在 社交 网 络 环境 下 般 入 的 广告 可 以 通称 为 
社交 广告 。 社 交 广 告 中 最 典型 的 形式 是 插入 在 社交 网 络 信息 流 中 的 广 
告 ， 这 种 方式 最 早 见于 Twitter， 产 品 称 为 "Promoted Tweets”。 这 种 方式 


力求 在 用 户 上 自然 关注 的 交互 过 程 中 尽 可 能 自然 地 插入 广告 ， 也 被 归于 
原生 广告 的 范畴 中 。 我 们 认为 , “社交 广告 ”与 “社区 网 络 中 的 广告 ”是 两 
个 不 同 的 概念 ， 如 在 社交 网 络 页面 上 竞价 售卖 的 文字 链 或 横幅 广告 ， 

其 本 质 并 不 因为 处 于 社交 网 络 中 有 太 大 的 变化 。 社 交 广 告 希 望 达到 的 
效果 是 通过 用 户 的 扩散 式 传播 获得 更 大 的 影响 力 和 口碑 ， 从 这 个 意 》 
上 讲 ， 在 信息 流 的 交互 中 挖掘 价值 前 景 光明 。 图 1-6 中 给 出 了 社交 网 络 
信息 流 广告 的 一 个 示例 。 
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图 1-6 社交 网 络 信息 流 广告 


(6) 移动 广告 (mobile ad) 。 移 动 互联 网 在 近 几 年 爆发 式 地 增 
长 ， 并 且 大 有 取代 桌面 互联 网 之 势 。 严 格 来 说 ， 移 动 互联 网 上 的 广告 
形式 与 桌面 电脑 上 的 广告 没有 本 质 的 区 别 ， 不 过 由 于 移动 设备 上 应 用 
的 大 量 普 及 ， 广 告 也 由 Web 访问 的 页 面 上 搬 进 了 应 用 里 。 于 是 ， 也 产 
生 了 在 应 用 中 插入 广告 的 SDK 和 相应 的 广告 网 络 。 目 前 移动 广告 典型 
的 形式 有 横幅 、 开 屏 、 插 屏 、 积 分 墙 或 推荐 墙 等 。 图 1-7 中 给 出 了 移动 
广告 形式 的 一 些 示例 ， 我 们 将 在 第 7 章 中 具体 讨论 与 移动 广告 和 原生 广 
告 相关 的 产品 问题 。 

(7) 邮件 定向 营销 广告 (E-mail Direct Marketing, EDM) ° XÆ 
通过 电子 邮件 的 方式 向 目标 用 户 传 递 推 广 信息 的 一 种 网 络 营 销 手 段 。 
与 上 面 各 种 广告 形式 都 不 同 ，EDM 是 一 种 主动 的 广告 形式 ， 它 不 需要 
等 到 用 户 接触 的 机 会 出 现时 才 被 动 地 提供 广告 ， 而 是 可 以 随时 向 认为 
合适 的 用 户 发 送 推广 信息 。 不 过 也 正 因为 如 此 ，EDM 非 常 容易 变 成 垃 
圾 邮件 的 主要 来 源 。 因 此 ， 对 EDM 的 运营 者 而 言 ， 精 准 地 把 握 用 户 兴 
趣 、 非 常 有 节制 地 提供 对 用 户 用 价值 的 相关 信息 是 非常 关键 的 。 比 起 
展示 广告 ， EDM 中 受众 定向 的 利用 更 加 直接 ， 也 更 为 重要 。 图 1-8 中 给 
出 了 邮件 营销 广告 的 一 些 示 例 。 另 外 ， 通 过 短信 、iMessage 等 方式 投放 
的 广告 与 邮件 营销 广告 也 非常 相似 。 
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图 1-7 移动 广告 形式 示例 
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图 1-8 邮件 定向 营销 广告 (EDM) 示例 
当然 ， 由 于 广告 的 本 质 是 一 切 付费 的 信息 、 产 品 或 服务 的 传播 渠 


道 ， 在 线 广告 实际 上 的 产品 范畴 远 远 不 是 上 面 介绍 的 这 几 种 创意 形式 
可 以 包罗 的 。 除 了 上 面 这 些 以 创意 为 载体 的 推广 的 狭义 广告 形式 ， 还 
有 很 多 的 付费 推广 类 商业 产品 也 可 以 认为 是 广义 的 广告 产品 ， 其 本 质 


的 产品 技术 框 以 与 普通 广告 非常 类 似 ， 我 们 将 在 1.5 节 进一步 介绍 这 些 
it] iu 


1.4 在 线 广告 简 史 


在 讨论 广告 技术 之 前 ， 我 们 先 浏 览 一 下 在 线 广告 发 展 的 历程 。 因 
为 广告 市 场 的 概念 、 技 术 和 术语 繁多 ， 如 果 不 是 对 这 些 有 基本 的 了 
解 ， 很 难 深入 探讨 具体 的 产品 。 

回 到 20 世纪 末 ， 那 时 的 在 线 媒体 (如 AOL ` Yahoo! 等 网 站 ) 刚 
刚 产生 不 久 。 他 们 已 经 取得 了 不 错 的 流量 规模 ， 可 是 投资 人 当然 希望 
这 些 媒体 也 能 够 给 他 们 带 来 真 金 白银 。 要 对 这 些 线 上 流量 进行 变现 ， 
最 直接 的 方法 就 是 把 网 站 的 HTML 页 面 当成 杂志 的 版 面 ， 在 里 面 插入 
广告 位 。 供 给 方 有 有 了， 那么 需求 方 呢 ? 线 下 的 广告 代理 公司 也 就 把 这 
些 网 站 当成 一 本 本 新 的 杂志 ， 按 原来 的 思路 和 逻辑 进行 采 买 。 这 种 在 
互联 网 上 展示 广告 创意 的 产品 形式 称 为 展示 广告 (display 
advertising) ， 也 叫 显 示 广 告 。 这 一 阶段 的 展示 广告 售卖 模式 称 为 合约 
| Œ (agreement-based advertising) ， 即 采用 合同 约定 的 方式 确定 某 一 
广告 位 在 某 一 时 间 段 为 某 特 定 广告 主 所 独占 ， 并 且 根 据 双方 的 要 求 ， 
确定 广告 创意 和 投放 策略 。 当 然 ， 这 样 的 采 买 模式 还 没有 对 计算 的 需 
求 ， 因 为 此 时 唯一 需要 的 就 是 把 广告 主 的 创意 作为 一 个 HTML 的 片段 插 
入 到 媒体 的 页 面 中 。 然 而 ， 情 况 变化 很 快 ， 互 联网 媒体 为 了 营 收 的 增 
长 ， 希 望 逐 年 甚至 逐 季 提高 自己 的 广告 位 报价 。 在 流量 快速 增长 或 者 


数字 广告 逐渐 为 广告 主 认 知 的 阶段 ， 提 价 是 比较 容易 被 市 场 接受 的 。 
可 是 当 媒体 的 流量 和 品牌 认 知 度 都 相对 稳定 以 后 ， 又 有 什么 新 的 提高 
收入 的 办 法 呢 ? 

互联 网 广告 运营 者 们 经 过 探索 ， 很 快 瓯 发现 了 在 线 广告 不 同 于 传 
统 媒 体 广告 的 本 质 特 点 : 我 们 可 以 对 不 同 的 受众 呈现 不 同 的 广告 创 
意 ! 在 今天 看 来 再 平常 不 过 的 这 个 观念 ， 实 际 上 是 在 线 广告 的 效果 和 
市 场 规模 不 断 发 展 的 核心 驱动 力 。 认 识 到 这 一 点 ， 媒 体 找到 了 一 条 能 
使 广告 位 报价 继续 提高 的 思路 。 例 如 ， 可 以 把 某 广 告 位 的 男性 受众 和 
女性 受众 卖 给 不 同 的 广告 主 ， 比 如 对 男性 受众 展示 某 剃 须 刀 品牌 的 广 
告 ， 而 对 女性 受众 展示 某 化 妆 品 品牌 的 广告 。 这 样 的 广告 投放 方式 称 
为 定向 广告 (targeted advertising) 。 很 显然 ， 这 样 的 广告 系统 已 经 对 
计算 技术 产生 了 两 个 具体 需求 : 一 是 受众 定向 (audience targeting) ， 
即 通过 技术 手段 标定 某 个 用 户 的 性 别 、 年 龄 或 其 他 标签 二 是 广告 投 
放 (ad serving) ， 即 将 广告 投 送 由 直接 航 入 页 面 变 为 实时 响应 前 端 请 
求 ， 并 根据 用 户 标 签 目 动 决策 和 返回 合适 的 广告 创意 。 由 于 从 传统 的 
品牌 广告 延伸 而 来 ， 此 时 的 定向 广告 仍然 以 合约 的 方式 进行 。 媒 体 向 
广告 主 保 证 某 个 投放 量 ， 并 在 此 基础 上 确定 合同 的 总 金额 以 及 投放 量 
未 完成 情况 下 的 赔偿 方案 。 这 种 担保 式 投 送 (Guaranteed Delivery , 
GD) 的 交易 方式 逐渐 成 为 互联 网 合约 式 广告 的 主要 商业 模式 。 一 般 来 
说 ， 这 样 的 合约 仍然 主要 面向 品牌 广告 主 ， 并 且 遵 循 按 千 次 展示 付费 
(Cost per Mille, CPM) 的 计 费 方式 。 


合约 广告 系统 中 有 一 个 重要 的 计算 问题 ， 即 在 满足 各 合约 目标 受 
从 量 要 求 的 同时 尽 可 能 为 所 有 广告 商 分 配 a 到 质 更 好 的 流量 。 这 一 问题 
有 两 个 难点 : 一 征 如 何 有 效 地 将 流量 分 配 到 各 个 合约 互相 交叉 的 人 群 
fiui: 二 是 要 在 在 线 的 环境 下 实时 地 完成 每 一 次 展示 决策 。 这 个 问 
题 称 为 在 线 分 配 (online allocation) 。 如 果 将 各 合约 的 量 看 作 约束 条 
件 ， 将 某 种 度量 下 的 质 看 作 目 标 函 数 ， 可 以 利用 带 约 束 优化 
(constrained optimization) 的 数学 框架 来 探索 这 一 问题 。 为 了 得 到 在 
线 环 境 下 切实 可 行 的 解决 方案 ， 学 术 界 和 工业 界 的 同仁 在 理论 和 工程 
方面 进行 了 大 量 的 研究 ， 有 一 些 高 效 且 人 簿 便 的 实用 方案 已 经 为 各 媒体 
] GHI» 
需要 注意 ， 展 示 广 告 领域 定 癌 投放 的 最 初 动机 是 供给 方 为 了 拆 分 
流量 以 获得 更 高 的 营 收 。 如 有 果 一 开始 就 提供 非常 精细 的 定向 ， 反 而 会 
造成 售卖 率 的 下 降 。 因 此 ， 最 初 的 定向 标签 往往 都 设置 在 较 粗 的 粒度 
上 ， 最 典型 的 是 一 些 人 口 属性 标签 。 受 众 定 向 显然 更 符合 需求 方 的 口 
味 和 利益 一 一 不 要 起 了， 广告 市 场 的 钱 全 部 是 来 自 需 求 方 的 ， 他 们 的 
利益 被 满足 得 越 好 ， 市 场 的 规模 束 会 越 大 。 因 此 ， 受 从 定 辣 产生 以 
后 ， 市 场 向 着 精细 化 运作 的 方向 快速 发 展 。 这 一 发 展 主要 有 两 方面 的 
趋势 : 一 是 定向 标签 变 得 越 来 越 精 准 ; 二 是 广告 主 的 数量 不 断 膨胀 。 
在 这 些 趋势 下 ， 仍 然 按照 合约 的 方式 售卖 广告 会 遇 到 越 来 越 多 的 麻 
烦 。 首 先 ， 很 难 对 这 些 细 粒 度 标签 组 合 的 流量 做 准确 预 估 ;其 次 ， 当 
一 次 展示 同时 满足 多 个 合约 的 时 候 ， 仅 仅 按照 量 约束 下 的 在 线 分 配 寅 


略 进行 决策 有 可 能 当 费 掉 了 很 多 本 来 可 以 卖 得 更 贯 的 流量 。 既 然 量 的 
yj 束 融 来 了 这 些 厅 烦 ， 有 没有 可 能 抛弃 量 的 保证 而 采用 最 唯利是图 的 
策略 来 进行 广告 决策 ? 这 样 的 思路 催生 了 计算 广告 历史 上 章 命 性 的 产 
品 模式 一 一 竞价 广告 (auction-based advertising) 。 在 这 种 模式 下 ， 供 
给 方 只 回 广 告 主 保证 质 即 单位 流量 的 成 本 ， 但 不 再 以 合约 的 方式 给 出 
量 的 保证 ， 换 言 之 ， 对 每 一 次 展示 都 基本 按照 收益 最 高 的 原则 来 决 
策 。 

上 面 是 从 展示 广告 的 发 展 看 竞价 产生 的 原因 ， 实 际 历史 的 足迹 却 
并 非 如 此 。 竞 价 广告 产生 的 最 初 场景 是 在 互联 网 广告 最 主要 的 金 矿 
一 一 搜索 广告 (search ad) 中 。 在 以 Google 为 代表 的 搜索 引 敬 在 技术 
成 熟 以 后 ， 迅 速成 为 互联 网 新 的 入 口 。 与 门户 网 站 不 同 ， 搜 索引 擎 从 
一 开始 束 没 有 被 当 作 媒 体 来 看 待 ， 因 此 搜索 流量 的 变现 也 采用 了 与 服 
务 自然 结合 的 付费 搜索 (paid search 或 sponsored search) 模式 。 从 广告 
的 视角 来 看 ， 也 可 以 把 付费 搜索 看 作 一 种 定 疝 广告 ， 即 根据 用 户 的 即 
时 兴趣 定 癌 投 送 的 广告 ， 而 即时 兴趣 的 标签 束 古 关键 词 。 很 显然 ， 这 
种 定向 广告 从 一 开始 就 直接 达到 了 非常 精准 的 程度 ， 也 就 很 目 然 地 采 
用 了 竞价 的 方式 售卖 

搜索 广告 产生 了 巨大 的 收益 以 后 ， 搜 索引 擎 开始 考虑 将 这 样 的 变 
现 方式 推广 到 其 他 互联 网 媒体 上 : 将 用 户 的 即时 兴趣 标签 由 搜索 词 换 
成 正在 浏览 页 面 中 的 关键 词 ， 可 以 将 这 均 竞 价 广告 系统 从 搜索 结 采 页 
照搬 到 媒体 页 面 上 ， 这 就 产生 了 上 下 文 广告 (contextual advertising) ° 


ASS 


上 下 文 广告 的 初期 ， 创意 的 形式 也 是 与 搜索 广告 一 样 的 文字 链接 。 许 
多 产品 讨论 将 它 与 展示 广告 分 开 对 待 ， 不 过 当 我 们 把 它 与 上 一 段 中 精 
细 化 定向 的 展示 广告 对 比 来 看 时 就 知道 ， 这 样 的 区 分 实际 上 没有 必 
要 ， 或 许 从 创意 形式 上 把 展示 广告 和 文字 链 广 告 区 别 开 更 符合 分 类 的 
逻辑 。 

从 宏观 市 场 上 看 ， 竞 价 广告 与 合约 广告 有 很 大 的 不 同 。 没 有 了 合 
约 的 保证 ， 大 量 的 广告 主 处 在 一 个 多 方 博弈 的 环境 中 。 与 直觉 不 同 的 
是 ， 在 如 何 收取 广告 主 费 用 这 一 点 上 ， 我 们 并 非 按 照 微观 上 最 优 的 方 
案 实 施 就 可 以 达到 整个 市 场 最 大 的 收益 。 关 于 定价 机 制 的 深入 研究 ， 
产生 了 广义 第 二 高 价 (Generalized Second Price, GSP) 这 一 竞价 重要 
的 理论 。 

基于 竞价 机 制 和 精准 人 群 定向 这 两 个 核心 功能 ， 在 线 广告 分 化 出 
了 广告 网 络 (adNetwork, ADN) 这 种 新 的 市 场 形 态 。 它 批量 地 运营 媒 
体 的 广告 位 资源 ， 按 照 人 群 或 上 下 文 标签 售卖 给 需求 方 ， 并 用 竞价 的 
方式 决定 流量 分 配 。 广 告 网 络 的 结算 以 按 点 击 付费 (Cost per Click, 
CPC) 的 方式 为 主 ， 这 一 点 有 数据 和 业务 方面 多 层次 的 原因 ， 在 本 书 
的 后 面 会 详细 探讨 。 虽 然 我 们 不 太 能 指 这 种 方式 的 千 次 展示 收益 
(Revenue per Mille, RPM) 可 以 达到 合约 式 品 牌 广告 的 水 平 ， 但 它 使 
得 大 量 中 小 互联 网 媒体 有 了 切实 可 行 的 变现 手段 : 这些 媒体 有 一 定 的 
流量 ， 但 还 不 值得 建立 自己 的 销售 团队 面向 品牌 广告 商 售卖 ， 直 接 把 


自己 的 广告 库存 (inventory) 托管 给 ADN， 借 助 ADN 的 销售 和 代理 团 
队 为 目 己 的 流量 变现 。 

ADN 有 既然 只 通过 出 价 接口 提供 价格 约定 ， 那 么 由 谁 来 保证 量 呢 ? 
自然 会 有 需求 方 的 某 种 产品 来 完成 。 当 ADN 产 生 以 后 ， 代 理 公 司 当 然 
也 要 对 广告 采 买 方式 做 出 调整 ， 因 为 此 时 的 流量 采 买 发 生 了 几 点 显著 
变化 : 一 是 更 多 地 面 问 受众 而 非 媒 体 或 广告 位 进行 采 买 ， 这 当然 是 与 
受众 定向 的 流行 有 直接 关系 ;二 是 需求 方 的 代理 需要 采用 技术 的 手段 
保证 广告 主 量 的 要 求 ， 并 在 此 基础 上 帮助 广告 主 优化 效 末 。 这 又 是 一 
个 与 在 线 分 配 类 似 的 带 约 束 优化 问题 。 但 是 实际 上 ， 这 个 问题 有 着 本 
质 的 不 同 : 由 于 只 能 在 ADN 定 义 好 的 定 癌 标签 组 合 上 预 完 指定 出 价 ， 
而 不 能 控制 每 一 次 展示 的 出 价 ， 因 此 ， 市 场 看 起 来 像 一 个 黑 盒 子 ， 需 
求 方 只 能 徘 选 择 合适 的 标签 组 合 以 及 阶段 性 调整 出 价 来 间接 控制 效 
果 。 这 种 面向 多 个 ADN 或 媒体 按 人 人 群 一 站 式 采 美 广告 并 优化 投入 产 出 
比 的 需求 方 产 品 ， 我 们 称 为 交易 终端 (Trading Desk, TD) 。 

在 ADN 中 ， 核 心 的 竞价 逻辑 是 封闭 的 ， 这 不 能 满足 需求 方 越 来 越 
明确 的 利益 要 求 。 试 想 下 面 两 个 例子 (1) 某 电子 商 务 网 站 需要 通过 
一 次 广告 投放 来 向 它 的 忠实 用 户 推广 某 产 品 ; (2) 某 银行 希望 通过 上 自 
己 的 信用 卡 用 户 在 网 络 上 找到 类 似 的 湾 在 用 户 群 ， 并 通过 广告 争取 这 
批 潜在 用 户 。 很 显然 ，ADN 很 难 直 接 为 这 两 个 需求 提供 人 群 标签 。 定 
制 化 需求 催生 了 一 种 开放 的 竞价 逻辑 ， 让 需求 方 按 自己 的 人 群 定 义 来 
挑选 流量 ， 这 就 是 实时 竞价 (Real Time Bidding, RTB) 。 它 是 将 拍卖 


的 过 程 由 广告 主 预 先 出 价 ， 变 成 每 次 展示 时 实时 出 价 。 只 要 把 广告 展 
示 的 上 下 文 页 面 URL 以 及 访客 的 用 户 标识 等 信息 传 给 需求 方 ， 它 就 有 
充分 的 信息 来 完成 定制 化 的 人 群 选择 和 出 价 。 于 是 ， 市 场 上 产生 了 大 
量 聚 合 各 媒体 的 剩余 流量 并 采用 实时 竞价 方式 为 他 们 变现 的 产品 形态 
一 一 广告 交易 平台 (ad Exchange，ADX) 。 这 个 名 称 让 我 们 很 容易 联 
想起 股票 交易 所 。 事 实 上 ， 如 果 我 们 把 ADN 的 交易 方式 想象 成 场 外 交 
mH (over-the-counter market) ， 那 么 ADX 与 股票 交易 所 确实 有 着 类 
似 的 作用 。 

通过 实时 竞价 的 方式 ， 按 照 定制 化 的 人 群 标 签 购买 广告 ， 这 样 的 
产品 就 是 需求 方 平台 (Demand Side Platform, DSP) 。 由 于 实时 竞价 
主要 采用 按 展示 次 数 计 费 的 方式 (本 书后 面部 分 会 具体 讨论 其 原 
Kl) ，DSP 需 要 尽 可 能 准确 地 估计 每 一 次 展示 带 来 的 期 望 价 值 。 在 这 一 
点 上 ，DSP 比 TD 要 方便 多 了 ， 因 为 充分 的 环境 信息 使 得 深入 的 计算 和 
估计 成 为 可 能 。 基 于 DSP 的 广告 采 买 非常 类 似 于 股票 市 场 上 的 程序 交 
易 ， 我 们 把 这 样 的 广告 采 买 方式 也 叫 作 程序 化 交易 (programmatic 
trade) 。 除 了 RTB 以 外 ， 还 有 其 他 几 种 程序 购买 的 交易 方式 ， 如 优选 
(preferred deals) 以 及 私有 交易 市 场 (Private Market Place ，PMP ) 
等 。 可 以 预见 ， 在 线 广告 中 程序 化 交易 的 作用 和 地 位 将 会 不 断 加 强 ， 
这 是 由 数字 广告 的 本 质 特点 以 及 广告 主 利益 最 大 化 的 趋势 所 决定 的 。 

初次 接触 在 线 广告 的 读者 可 能 对 这 部 分 中 提 到 的 大 量 概念 和 商业 
逻辑 感到 无 所 适 从 。 不 过 没关系 ， 上 面 所 有 用 楷体 字 标 出 的 关键 概念 


在 本 书后 面 章 节 出 现时 会 进行 详细 讨论 。 而 我 们 写 这 一 段 的 目的 也 仅 
仅 是 让 大 家 对 本 书 讨论 的 范畴 有 一 个 全 局 性 的 认识 ， 从 而 在 后 面 章节 
中 接触 到 某 个 具体 问题 时 不 会 只 见 树木 ， 不 见 森 林 。 

由 于 在 线 广 告 存 在 着 较为 复杂 的 市 场 结 构 ，LUMA Partners 对 北美 
市 场 的 主要 代表 公司 进行 非常 全 面 的 总 结 ， 并 绘制 成 了 图 1-9 中 
的 “display LUMAscape”。 这 一 图 谱 的 骨架 与 上 面 我 们 介绍 的 在 线 广告 
简 史 有 着 非常 紧密 的 联系 ， 因 此 也 是 本 书 在 广告 产品 方面 重要 的 提 
纲 。 基 本 上 可 以 说 ， 这 一 图 谱 是 从 两 端 向 中 间 逐 渐 发 展 和 形成 的 : 首 
先是 合约 阶段 ， 广 告 主 通过 代理 公司 从 媒体 方 采 买 广告 ， 而 媒体 方 的 
广告 投放 机 则 负责 完成 和 优化 各 个 广告 主 的 合约 ， 然 后 ， 市 场 进化 出 
了 竞价 售卖 方式 ， 从 而 在 靠近 供给 方 产生 了 ADN 这 样 的 产品 形态 ， 而 
需求 方 的 代理 公司 为 了 适应 这 一 市 场 变化 ， 孵 化 除了 对 应 的 媒介 采 买 
平台 (media buying platform) ; 最 后 ， 当 市 场 产生 了 实时 竞价 方式 交 
易 时 ， 供 给 方 进化 出 了 ADX， 而 需求 方 则 需要 用 DSP 与 其 对 接 来 出 价 
和 投 送 广告 。 图 中 的 下 半 部 分 ， 多 是 一 些 对 这 一 骨干 市 场 结构 起 支持 
作用 的 产品 或 者 在 细 分 领域 的 特异 化 产品 。 我 们 在 后 面 介绍 到 相关 部 


分 时 ， 将 会 给 出 相应 的 介绍 。 
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图 1-9 LUMA 总 结 的 展示 广告 市 场 结构 和 代表 公司 图 谱 


图 1-9 中 的 个 别 术 语 与 本 书 略 有 区 别 (如 媒介 末 买 平台 ) ， 我 们 会 
在 书 中 用 相近 似 的 产品 概念 TD 来 代替 ， 请 大 家 留意 。 

总 结 一 下 ， 在 在 线 广告 发 展 的 历史 上 ， 定 辐 技 术 和 交易 形式 的 进 
化 是 一 条 主线 。 从 最 初 的 固定 位 置 合约 交易 发 展 到 进行 受众 定 网、 按 
展示 量 结算 的 合约 交易 ， 再 到 苋 价 交易 方式 ， 并 最 终 发 展 成 开放 的 实 
时 竞价 交易 市 场 。 这 条 主线 的 核心 驱动 力 是 让 越 来 越 多 的 数据 源 为 广 
告 决策 提供 文 择 ， 从 而 提升 广告 的 效 末 。 除 了 这 条 交易 形态 的 主线 ， 
互联 网 广告 产品 还 有 为 外 一 条 发 展 线 路 ， 即 产品 展现 逻辑 上 的 发 展 : 
在 展示 广告 的 最 初 阶段 ， 广 告 位 作为 与 内 容 相 对 独立 的 单元 来 决策 和 
运营 ， 并 且 完 全 以 优化 收入 为 目标 ; 但 同时 ， 和 人 们 从 搜索 广告 和 社交 
网 络 信息 流 广 告 中 得 到 了 启发 一 一 将 内 容 与 广告 对 立 起 来 未 必 是 一 个 
好 的 选择 。 搜 索 广 告 和 社交 网 络 信 息 流 广告 这 两 种 广告 产品 正 是 由 于 
与 内 容 的 展现 和 触发 逻辑 有 着 高 度 的 一 致 性 ， 才 使 得 它们 的 效果 突 
出 。 沿 着 这 样 的 思路 ， 将 内 容 与 广告 以 某 种 方式 统一 决策 或 排序 的 广 
告 产 品 一 一 原生 广告 (Native AD) 在 近年 来 得 到 了 工业 界 越 来 越 多 的 
关注 。 如 何 将 原生 的 决策 方式 与 前 面 介 绍 的 广告 市 场 已 经 非常 成 熟 的 
规模 化 交易 逻辑 相 结合 是 目前 互联 网 广告 产品 发 展 的 热点 。 需 要 特别 
说 明 的 是 ， 原 生 广告 的 思路 在 移动 设备 这 样 屏幕 尺寸 受 限 的 环境 下 将 
会 成 为 一 个 非常 有 前 景 的 发 展 方向 ， 这 方面 的 进展 我 们 将 在 第 7 章 中 具 
体 讨 论 。 


1.5 泛 广 告 商 业 产品 


下 面 要 讨论 的 这 些 泛 广告 商业 产品 的 本 质 都 是 付费 推广 。 虽 然 这 
些 付费 推广 模式 的 表现 方式 更 加 多 样 化 ， 用 户 的 感知 程度 和 参与 程度 
也 大 不 相同 ， 但 是 产品 和 销售 模式 却 与 狭义 广告 基本 相同 。 布 望 读 者 
在 看 完 此 书 以 后 ， 能 够 认识 到 这 些 商业 产品 本 质 上 也 是 在 线 广 告 ， 能 
够 以 统一 的 视角 来 理解 和 规划 这 些 变现 方式 。 
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图 1-10 团购 产品 示例 
(1) 团购 。 团 购 本 质 上 是 一 种 按照 效果 付费 的 泛 广告 产品 ， 其 特 
殊 性 在 于 广告 主 除了 付 推 广 费 用 外 ， 还 向 用 户 让 利 以 获得 转化 。 团 购 
推广 的 主要 广告 主 是 一 些 本 地 化 的 店铺 ， 主 要 目的 是 为 了 获得 新 客 
户 。 如 图 1-10 所 示 ， 对 团购 平台 来 说 ， 团 购 商 品 在 一 定 环境 下 的 排序 


与 三 告 是 一 样 的 问题 。 不 过 团购 销售 很 少 采 用 鞠 价 的 万 式 ， 而 多 是 预 
先 约定 价格 。 另 外 ， 团 购 的 广告 库 中 是 付费 信息 而 非 创 意 ， 这 有 利于 
发 展 原生 广告 的 推广 方式 ， 参 见 第 7 章 。 

(2) 游戏 联运 。 游 戏 联运 根据 用 户 的 最 终 游 戏 内 消费 在 推广 渠道 
和 游戏 开发 丙 之 则 分 成 的 商业 产品 ， 这 仍然 是 一 种 按 效 灯 付 费 的 沁 广 
告 产 品 。 在 页 游 和 手 游 的 推广 中 ， 联 运 古 一 种 非 第 第 见 的 发 行 模式 ， 
读者 在 各 种 产品 中 看 到 的 网 1-11 所 示 的 游戏 下 载 专 区 ， 其 表 后 的 商业 模 
式 往往 都 是 联运 。 实 际 上 ， 在 中 国 的 各 大 Android 应 用 市 场 中 ， 游 戏 联 
运 的 收入 远 远 超过 其 他 类 型 的 广告 收入 。 如 琳 将 联运 收入 也 算 在 广告 
收入 中 的 话 ， 互 联网 总 体 收入 的 广告 占 比 还 会 提高 不 少 。 不 同 的 联运 
渠道 分 成 比例 可 能 相差 很 大 ， 经 过 我 们 调研 ， 在 Apple Store 这 样 典型 的 
国外 市 场 中， 渠道 的 分 成 比例 一 般 为 30%， 但 是 在 中 国 ， 有 些 强势 的 联 
运 渠 道 分 成 比例 甚至 可 以 达到 90% 以 上 。 游 戏 联运 也 完全 可 以 按照 广 
告 产 品 思 路 来 设计 和 运营 ， 为 外 其 广告 库 同 样 具 有 易于 原生 化 的 特 
点 
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图 1-11 游戏 联运 产品 示例 

(3) 固定 位 导航 。 这 主要 包括 网 址 导航 站 的 位 置 入 口 (如 图 1-12 
所 示 ) 、 应 用 分 发 平台 的 推荐 位 置 等 付费 推广 位 置 。 一 般 来 说 ， 这 种 
产品 的 销售 都 采用 按时 间 付 费 的 固定 位 模式 ， 而 不 是 动态 的 竞价 决策 
模式 。 这 是 因为 广告 主 除了 引流 以 外 ， 往 往 更 加 关注 这 些 入 口 位 置 的 
橱窗 效应 。 这 种 广告 的 销售 和 运营 模式 与 按 天 购买 的 合约 广告 相同 。 

(4) 返利 购买 。 返 利 购买 是 电 商行 业 常见 的 一 种 推广 模式 ， 它 与 
团购 有 些 类 似 ， 也 是 采用 折扣 或 积分 的 方式 激励 用 户 购 买 。 显 然 ， 这 
种 方式 可 以 获得 非常 高 的 ROI， 但 是 也 会 带 来 一 些 老 用 户 转 而 由 返利 网 
下 单 ， 因 此 实际 的 效果 远 没 有 那么 好 ， 特 别 是 在 获取 新 客户 方面 的 价 
值 值得 考量 。 


需要 特别 说 明 ， 当 一 个 公司 同时 运营 普通 广告 和 上 述 一 种 或 多 种 
泛 广告 产品 时 ， 它 们 之 间 甚 至 是 和 用 户 产 品 之 间 ， 经 常会 出 现 争 人 村 广 
告 位 或 其 他 入 口 资源 的 问题 。 面 对 这 样 的 问题 ， 最 合理 的 分 配方 式 是 
们 之 间 的 竞价 来 决策 ， 这 是 非常 重要 的 内 部 流量 货币 化 的 运营 
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图 1-12 网 址 导航 产品 示例 


1.6 思 


1. 考 虑 到 品牌 广告 和 直接 效果 广告 的 目的 性 差异 ， 两 者 在 创意 设 
计 、 投 放 策略 、 媒 介 选 择 等 方面 应 该 有 什么 区 别 ? 

2. 请 你 从 自己 熟悉 的 领域 中 找 出 几 个 泛 广 告 产品 的 例子 ， 并 探讨 其 
与 典型 广告 产品 的 区 别 。 
本 书 由 'ePUBw.COM | #3, ePUBw.COM 提 


供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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从 现在 开始 ， 我 们 开始 接触 在 线 广告 中 与 “计算 ”有 关 的 问题 。 在 
线 广告 中 计算 到 底 是 为 了 解决 什么 问题 ， 以 及 解决 这 些 问题 需要 什么 
样 的 业务 摘 述 框架 ， 将 是 本 章 重 点 关注 的 内 容 。 

我 们 将 先 对 传统 广告 中 发 展 起 来 的 广告 有 效 性 理论 做 简要 的 回 
顾 。 通 过 把 广告 产生 效果 的 过 程 分 解 为 若干 阶段 ， 并 讨论 其 中 各 阶段 
关键 的 影响 因素 ， 可 以 对 在 线 广告 情形 下 受众 定向 、 创 意 优化 及 其 他 
有 价值 的 技术 点 有 感性 认识 。 虽 然 这 部 分 与 具体 的 计算 技术 无 关 ， 却 
对 计算 广告 中 的 一 些 根本 原理 有 深入 的 揭示 ， 和 希望 读者 有 所 了 解 。 

在 互联 网 广告 中 ， 计 算 之 所 以 可 以 发 挥 巨大 的 作用 ， 与 它 的 一 些 
根本 技术 特点 有 很 大 关系 ， 这 是 本 章 的 出 发 点 。 总 的 来 说 ， 可 衡量 的 
效果 以 及 相应 的 计算 优化 是 在 线 广告 区 别 于 线 下 广告 的 主要 特点 。 在 
这 些 特色 的 基础 上 ， 我 们 对 Andrei Broder 提 出 的 计算 广告 核心 挑战 稍 做 
推广 ， 得 到 贯穿 本 书 的 计算 广告 核心 问题 ， 即 利润 优化 问题 的 概念 性 
框架 。 

在 大 多 数 广告 产品 中 ， 可 以 通过 计算 优化 的 主要 是 收入 部 分 。 而 
千 次 展示 期 望 收入 (expected Cost Per Mille, eCPM) 正 是 计算 广告 中 
最 为 核心 的 量化 指标 之 一 。 与 广告 的 信息 传达 过 程 相关 ，eCPM 又 可 以 


分 解 为 点 击 率 和 点 击 价值 的 乘积 ， 这 两 个 指标 是 各 种 广告 产品 在 计算 
过 程 中 经 常 碰 到 的 ， 也 是 产品 运营 需要 深入 理解 和 重点 关注 的 。 

同时 ， 这 样 的 收入 分 解 方法 还 对 在 线 广告 产品 市 场 结构 和 计 寓 方 
式 的 理解 很 有 帮助 。 大 家 将 会 看 到 ， 在 线 广告 多 种 多 样 的 计 寓 方式 实 
际 上 反映 着 市 场 结构 的 分 工 不 同 。 具 体 来 说 ， 供 给 方 和 需求 方 如 何 分 
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常见 计 费 方式 的 深入 理解 ， 对 于 把 握 计算 广告 领域 的 核心 问题 ， 以 及 
评估 每 个 问题 在 特定 情形 下 的 难度 有 很 重要 的 指导 意义 。 

本 章 的 最 后 ， 还 介绍 了 若干 广告 和 在 线 广告 领域 中 重要 的 行业 协 
会 。 了 解 这 些 协 会 在 广告 业务 中 代表 的 利益 方 以 及 他 们 对 整个 在 线 广 
后市 场 产品 和 撤 术 形态 的 推动 作用 ， 对 于 有 志 从 事 广告 技术 和 业务 的 
读者 来 说 也 是 必要 的 。 


2.1 广告 有 效 性 原理 


为 了 探讨 用 技术 手段 优化 广告 投放 效果 ， 我 们 先 看 看 广告 从 产生 
用 户 接触 开始 是 如 何 产 生 最终 效 末 的 。 这 一 问题 是 广告 领域 一 个 传统 
重要 的 研究 读 题 ， 我 们 直接 借鉴 了 前 人 的 研究 成 有 末 ， 按 照 方便 计算 广 
各 讨论 的 原则 ， 用 一 个 三 段 式 信息 传播 模型 来 解剖 广告 由 物理 上 产生 
到 最 终 产 生 转 化 行为 的 全 过 程 ， 这 一 模型 如 图 2-1 所 示 。 

图 2-1 所 示 这 一 有 效 性 模型 把 广告 的 信息 接收 过 程 分 为 选择 


(selection) 、 解 释 (interpretation) 与 态度 (attitude) 三 个 大 阶段 ， 


或 者 进一步 分 解 为 曝光 (exposure) 、 关 注 (attention) 、 理 解 
(comprehension) 、 接 受 (acceptence) 、 保 持 (retention) 与 决策 
(decision) 6 个 子 阶段 。 下 面 我 们 分 别 来 讨论 每 个 阶段 的 意义 和 关键 


i p t 


图 2-1 广告 效果 产生 过 程 示意 

(1) 上 曝光 (exposure) 阶段 。 这 一 阶段 指 的 是 广告 物理 上 展现 出 
来 的 过 程 ， 此 阶段 的 有 效 程度 往往 与 广告 位 的 物理 属性 有 关 ， 并 没有 
太 多 可 以 通过 技术 优化 的 空间 。 实 际 的 广告 实践 中 ， 上 曝光 的 有 效 性 对 
最 终结 果 的 影响 往往 远 远 高 于 其 他 技术 性 因素 ， 所 以 才 会 有 传统 广告 
中 “位 置 为 王 ” 的 说 法 。 像 纽约 时 代 广 场 那 组 著名 的 广告 牌 ( 见 图 2-2 中 
左 图 ) 以 及 北京 东 三 环北 端 京 信 大 厦 外 立 面 正 对 着 东 三 环北 路 的 广告 
牌 〈 见 图 2-2 中 右 图 ) 就 有 非常 好 的 曝光 效果 。 在 互联 网 广告 中 ， 位 置 
的 影响 有 时 会 更 加 显著 ， 因 此 如 何 从 算法 上 消除 由 此 带 来 的 点 击 率 预 
佑 偏差 ， 是 一 个 非常 重要 的 实际 问题 。 


图 2-2 曝光 效果 突出 的 广告 位 示例 〈 左 : 纽约 时 代 ) m 北京 东 


三 环 京 信 大 厦 ) 

(2) 关注 (attention) 阶段 。 这 一 阶段 指 的 是 受众 从 物理 上 接触 
到 广告 到 意识 上 注意 到 它 的 过 程 。 对 广告 而 言 ， 曝 光 并 不 一 定 意味 着 
关注 。 举 个 例子 ， 有 一 天 我 的 一 位 好 友 在 浏览 社交 网 站 时 ， 他 的 小 儿 
子 在 旁边 喊 道 : “爸爸 ， 快 看 网 页 上 的 恐龙 ! ”而 这 位 朋友 找 了 一 分 多 
钟 都 没有 找到 恐龙 。 实 际 上 ， 玖 龙 就 在 网 页 上 端 最 醒目 的 广告 位 上 。 
这 个 例子 说 明 ， 强 曝光 并 不 能 等 同 于 用 户 实际 有 效 的 关注 。 那 么 如 何 
使 得 关注 阶段 的 效率 提高 呢 ? 有 几 个 重要 的 原则 。 首 先 ， 尽 量 不 要 打 
断 用 户 的 任务 。 这 一 点 是 上 下 文 相 关 的 广告 投 送 的 原理 基础 ， 也 是 当 
今 讨论 原生 广告 产品 的 出 发 点 之 一 。 上 面 的 例子 也 可 以 用 这 个 原则 来 


解释 ， 当 用 户 明确 辨识 出 某 个 固定 不 变 的 广告 位 ， 并 且 不 再 认为 它 与 
目 己 当 浏览 网 页 的 任务 有 关联 时 ， 他 会 下 意识 地 屏蔽 其 中 的 内 容 。 其 
次 ， 明 确 传达 向 用 户 推 送 此 广告 的 原因 ， 这 一 点 是 受众 定向 广告 创意 
优化 的 重要 方向 。 男 外 ， 内 容 符 合用 户 的 兴趣 或 需求 ， 这 是 行为 定 疝 
的 原理 基础 。 

(3) 理解 (comprehension) 阶段 。 用 户 关 注 到 了 广告 的 内 容 也 并 
不 意味 着 他 一 定 能 够 理解 广告 传达 的 信息 。 再 举 一 个 例子 ， 笔 者 有 一 
次 试 玩 了 一 球 网 页 游戏 ， 然 后 补 某 游戏 广告 定向 到 ， 并 多 次 看 到 某 塞 
传 “ 四 维 城 战 新 模式 ”的 游戏 广告 。 应 该 说 这 样 的 定向 是 精准 的 ， 我 也 
非常 认真 地 关注 了 三 告 的 内 容 ， 不 过 这 些 内 容 我 确实 不 能 直观 理解 ， 
也 就 谈 不 上 后 续 的 转化 。 理 解 阶段 有 哪些 原则 呢 ? 前 和 完 ， 广 告 内 容 要 
在 用 户 能 理解 的 具体 兴趣 范围 内 ， 这 说 明了 真正 精准 的 受众 定向 有 多 
么 上 必要。 其次， 要 注意 设 定 与 关注 程度 相 匹配 的 理解 门槛 。 例 如 ， 在 
电视 广告 中 ， 可 以 用 有 一 定 情 市 的 短 故 事 来 宣传 品牌 ， 在 路 牌 广告 
中 ， 创 意 制作 原则 是 将 若干 主要 市 场 诉 求 都 表达 出 来 ， 而 对 于 互联 网 
广告 ， 由 于 用 户 的 关注 程度 非常 低 ， 我 们 应 该 集中 强调 一 个 主要 诉求 
以 吸引 用 户 的 注意 力 。 

(4) 接受 (acceptance) 阶段 。 受 众 理解 了 广告 传达 的 信息 ， 并 不 
一 定 表 示 他 认可 这 些 信息 。 广 告 领 域 有 一 名 名 言 : “我 知道 有 一 半 的 广 
告 预算 浪费 了 。” 实 际 的 情况 还 有 可 能 更 糟 ， 如 果 表 达 的 信息 不 适当 ， 
甚至 有 可 能 有 三 分 之 一 的 广告 展示 起 到 负面 效果 ! 在 使 用 幽默 、 性 感 


这 样 非常 规 的 广告 手段 时 ， 要 特别 注意 这 一 点 。 广 告 的 上 下 文 环境 对 
于 广告 的 接受 程度 有 着 很 大 的 影响 ， 同 一 个 品牌 广告 出 现在 某 游戏 社 
区 上 和 门户 网 站 首页 上 ， 用 户 会 倾 问 于 认为 后 着 更 具 说 服 力 ， 这 也 融 
苹 优 质 媒体 的 品牌 价值 。 在 定向 广告 越 来 越 普 所 的 今天 ， 如 何 让 合适 
的 广告 出 现在 合适 的 媒体 上 ， 即 广告 安全 (ad safety) 的 问题 ， 正 在 引 
起 大 家 越 来 越 多 的 关注 。 

(5) 保持 (retention) 阶段 。 对 于 不 仅仅 追求 短期 转化 的 广告 
商 ， 当 然 布 望 广告 传达 的 信息 给 用 户 留 下 长 久 的 记忆 ， 以 影响 他 长 时 
间 的 选择 ， 因 此 品牌 广告 商 在 创意 设计 上 花 了 大 量 的 精力 提高 此 阶段 
效果 。 我 们 想 想 那些 充满 亏 术 性 或 混 漫 气质 的 电视 汽车 广告 ， 可 以 对 
此 有 直观 的 认识 。 

(6) 决策 (decision) 阶段。 成功 广 告 的 最 终 作 用 是 带 来 用 户 的 转 
化 行为 ， 虽 然 这 一 阶段 已 经 离开 了 广告 的 业务 范围 ， 但 好 的 广告 还 是 
能 够 为 转化 率 的 提高 做 好 铺垫 。 特 别 是 对 于 电 商 或 团购 业务 ， 在 创意 
上 强调 哪些 信息 以 打动 那些 价格 敏感 的 消费 者 是 有 相当 的 学 问 的 。 

定性 地 说 ， 越 靠 前 的 阶段 ， 其 效果 的 改善 对 点 击 率 的 贡献 越 大 ; 
而 越 靠 后 的 阶段 ， 其 效果 的 改善 对 转化 率 的 贡献 越 大 。 但 是 以 上 各 个 
阶段 的 划分 绝 非 孤 立 的 和 绝对 的 ， 而 某 一 项 具体 的 广告 策略 或 技术 也 
往往 会 对 几 个 阶段 的 效果 同时 发 生 影响 。 虽 然 这 样 的 有 关 广 告 有 效 性 
模型 的 讨论 多 见于 传统 广告 的 研究 中 ， 然 而 其 规律 显然 也 对 在 线 广告 
的 产品 方向 有 很 强 的 指导 作用 。 


2.2 互联 网 广告 的 点 


从 前 面 的 讨论 中 ， 大 家 一 定 已 经 发 现 了 不 少 在 线 广 告 不 同 于 传统 
广告 的 特点 。 在 这 些 不 同 点 当中 ， 有 一 些 对 我 们 正确 理解 在 线 广 告 市 
场 并 探究 合适 的 效果 优化 方案 有 着 非常 重要 的 指导 意义 。 

(1) 技术 和 计算 导向 。 数 字 媒 体 的 特点 使 在 线 广 告 可 以 进行 精细 
的 受众 定 同 ， 而 技术 又 使 得 广告 决策 和 交易 朝 着 计算 驱动 的 方 同 发 
展 。 实 际 上 ， 受 众 定 向 这 一 思想 在 线 下 广告 中 也 曾经 被 尝试 过 ， 比 如 
试图 把 信用 卡 纸 质 账单 背面 的 广告 按照 信用 卡 用 户 的 年 龄 和 性 别 做 一 
些 定制 化 ， 不 过 由 于 非 数字 的 媒体 上 这 么 做 的 成 本 太 高 ， 因 而 无 法 规 
模 化 。 在 数字 媒体 上 进行 受众 定 辣 ， 其 成 本 可 以 控制 得 非 第 低 ， 这 也 
直接 俊生 了 在 线 广 告 的 计算 单 命 。 除 了 受众 定 同 ， 由 于 在 线 广 告 存在 
寿 独 特 的 竞价 交易 方式 ， 因 而 广告 效果 精确 的 预 佑 和 优化 能 力也 有 是非 
党 重 要 的 。 

(2) 效果 的 可 衡量 性 。 在 线 广告 刚刚 产生 之 时 ， 大 家 对 这 种 广告 
最 多 的 称道 之 处 是 它 可 以 以 展示 和 点 击 日 志 的 形式 直接 记录 广告 效 

， 并 且 可 以 利用 这 些 日 志 优 化 广告 效果 。 不 过 ， 扩 击 率 这 一 指标 从 
征 否 在 绝对 意义 上 能 够 反映 广告 效果 十 值得 探讨 的 。 从 1998 年 到 今 
天 ， 横 幅 展示 广告 的 点 击 率 从 10% 一 路 降 至 0.1%， 难 道 这 说 明 广 告 的 
效 采 下 降 了 两 个 数量 级 吗 ? 快速 增长 的 市 场 规模 显然 给 出 了 否定 的 回 
答 。 我 们 认为 ， 在 不 同 的 产品 或 时 代 中 ， 点 击 率 绝对 值 的 比较 并 没有 
那么 重要 ， 而 在 一 个 特定 时 期 不 同 广告 和 算法 表现 出 来 的 关 异 才 是 更 


有 意义 的 。 从 这 一 点 来 看 ， 可 衡量 性 仍然 可 以 认为 是 在 线 广告 的 一 个 
重要 特点 。 

(3) 创意 和 投放 方式 的 标准 化 。 标 准 化 的 驱动 力 来 自 于 受众 定向 
与 程序 购买 。 既 然 需 求 方 天 心 的 是 人 群 而 非 广告 位 ， 创 意 尺 寸 的 统一 
化 与 一 些 关 键 接 口 的 标准 化 非常 关键 。 这 些 接口 标准 中 ， 比 较 典 型 的 
有 视频 广告 的 VAST 标准 “和 实时 竞价 的 OpenRTB 标准 等 。 实 践 表 
明 ， 有 越 来 越 多 的 广告 产品 和 平台 愿意 根据 这 些 市 场 标 准 来 设计 目 己 
的 规范 和 接口 ， 因 为 这 样 大 家 可 以 充分 利用 整个 市 场 的 流动 性 ， 更 快 
地 创造 更 多 的 价值 。 

(4) 媒体 概念 的 多 样 化 。 随 着 Web 2.0 和 移动 互联 的 普及 ， 赋 了 予 了 
更 多 交互 功能 的 互联 网 媒体 与 线 下 媒体 有 已 经 有 了 本 质 差 别 。 随 着 交 
互 功 能 的 不 同 ， 这 些 媒体 与 转化 行为 的 距离 也 就 不 同 。 举 个 例子 ， 对 
在 线 购物 行业 而 言 ， 门 户 网 站 、 垂 直 网 站 、 搜 索引 警 、 电 商 网 站 、 返 
利 网 ， 在 转化 链条 上 一 个 比 一 个 更 靠近 购买 行为 。 我 们 从 直觉 上 就 可 
以 知道 ， 越 接近 转化 的 媒体 上 的 广告 带 来 的 流量 一 定 可 以 达到 越 高 的 
ROI， 不 过 离 “ 引 导 潜 在 用 户 ” 这 样 的 广告 目的 也 就 越 远 。 因 此 我 们 在 从 
需求 方 看 在 线 广告 时 ， 应 该 注重 各 种 性 质 媒体 的 配合 关系 ， 并 从 整合 
营销 的 角度 去 审视 和 优化 整体 的 效果 。 试 想 ， 如 采 一 家 电 商 只 用 返利 
网 作为 线 上 广告 渠道 ，ROI 一 定 可 以 做 到 很 高 ， 可 是 这 样 的 营销 能 给 他 
TORK BPS te Pag? © 


(5) 数据 驱动 的 投放 决策 。 与 工业 革命 时 期 机 器 化 的 根本 驱动 力 
一 一 电力 相 类 比 ， 互 联网 化 的 根本 驱动 力 可 以 认为 是 数据 的 深入 加 工 
和 利用 。 这 一 操 在 大 数据 概念 个 广 沁 认 知 的 今天 已 经 成 为 老生 第 谈 。 
前 面 提 到 的 在 线 广告 的 计算 技术 在 很 大 程度 上 也 要 依赖 于 对 于 数据 的 
大 规模 利用 。 广 沁 收 集 用 户 的 行为 数据 和 广告 反馈 数据 ， 利 用 云 计算 
的 基础 设施 对 用 户 打 上 合适 的 标签 ， 同 样 根据 数据 在 多 个 广告 苋 搜 同 
一 次 展示 时 作出 决策 ， 再 将 投放 的 结果 统计 数据 反馈 给 广告 操作 人 员 
以 调整 投放 策略 ， 这 已 经 成 为 在 线 广 告 的 基本 投放 逻辑 。 因 此 可 以 认 
为 ， 现 代 的 在 线 广 告 系统 束 古 一 个 大 数据 处 理 平台 ， 而 且 其 对 数据 处 
理 的 规模 和 响应 速度 的 要 求 都 相当 高 。 可 以 说 ， 从 来 没有 任何 传统 
告 形式 像 在 线 广 告 那样 ， 需 要 大 规模 地 收集 并 利用 数据 ， 而 这 正 有 古 在 
线 广 告 最 吸引 人 之 处 。 


2.3 计算 广告 的 核心 问题 


Andrei Broder 在 提出 计算 广告 这 一 概念 的 同时 也 给 出 了 该 课题 的 核 
DRRR (注意 是 “核心 挑战 ”而 非 “定义 ”) 。 对 于 这 一 核心 挑战 ， 他 
的 表述 是 “Find the best match between a given user in a given context and a 
suitable advertisement”"。 我 们 结合 近年 来 市 场 的 发 展 以 及 实际 业务 中 
的 一 些 体会 ， 对 此 表述 稍 作 加 工 ， 给 出 如 下 计算 广告 的 核心 问题 : 

计算 广告 的 核心 问题 ， 是 为 一 系列 用 户 与 环境 的 组 合 找 到 最 合适 
的 广告 投放 策略 以 优化 整体 广告 活动 的 利润 。 


与 Andrei Broder 的 表述 相 比 较 ， 我 们 主要 进行 的 两 方面 的 微调 。 
首先 ， 强 调 广告 问题 优化 的 是 一 组 展示 上 的 效果 ， 而 非 孤 立 的 某 一 次 
展示 上 的 效果 。 这 是 由 于 广告 活动 中 普遍 存在 着 量 的 约束 ， 在 这 一 约 
束 下 进行 利润 优化 ， 其 最 优 解 往往 与 每 次 展示 独立 决策 时 有 很 大 的 不 
同 。 其 次 ， 摘 述 中 去 择 了 “given" 的 字眼 。 这 是 由 于 在 某 些 广告 产品 
中 ， 系 统 并 不 一 定 能 拿 到 确定 的 用 户 或 上 下 文 唯一 标识 ， 但 这 并 不 意 
味 着 完全 无 法 进行 计算 优化 。 同 样 地 ， 我 们 也 强调 优化 的 结果 是 “广告 
投放 策略 ”而 不 一 定 征 具体 的 广告 ， 这 也 是 因为 有 些 产 品 的 策略 并 不 是 
直接 决定 最 后 的 展示 。 相 信 读 完 本 书后 面 的 部 分 ， 大 家 就 能 更 深入 地 
体会 这 些 调 整 的 原因 。 

上 面 的 计算 广告 核心 挑战 需要 转化 为 数学 上 可 以 优化 的 目标 才能 
利用 计算 技术 来 解决 。 把 它 用 下 面 的 最 优化 问题 来 表达 : 


p 
max 2 40 — qi) (241) 
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目标 就 是 在 这 T 次 展示 上 的 总 收入 (r) 与 总 成 本 (q) R25, BUJ Ph 
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DWANA e 5ER ADRE, ai= di 是 一 个 常数 
时 ， 很 容易 难 证 优化 公式 2.1 与 优化 另 一 个 广告 中 更 稼 见 的 目标 投入 产 


Tm ri/ das 和 i 和 是 一 致 的 。 进 一 步 考 虚 收 入 与 成 本 
具体 依赖 的 因素 ， 上 面 的 优化 问题 可 以 写成 : 


而 | 

max 2 [r(ai, ui, Ci) — dG ui, ci)] (2.2) 

表达 式 中 的 a、u、c 三 个 变量 ， 分 别 代表 广告 、 用 户 与 环境 ， 即 广 
告 活动 的 三 个 参与 主体 ， 显 然 ， 广 告 展示 的 收入 或 成 本 与 这 三 个 因素 
都 有 关系 。 实 际 上 ， 对 除了 DSP 以 外 的 大 多 数 广告 产品 来 说 ， 要 么 是 
自 划 或 包 断 资源 ， 要 么 按 以 收 定 文 的 方式 与 媒体 分 成 ， 其 成 本 也 对 应 
为 常数 或 正比 于 收入 ， 在 这 种 情形 下 ， 成 本 部 分 可 以 从 上 面 的 优化 公 
ABA S 

注意 ， 这 里 有 一 个 隐 含 的 假设 ， 即 整体 的 收入 或 成 本 可 以 被 分 解 
到 每 次 展示 上 。 显 然 ， 这 一 假设 并 不 是 十 分 合理 的 ， 但 是 考虑 到 实际 
线 上 决策 时 ， 必 须 对 每 次 展示 马上 完成 计算 ， 所 以 ， 从 实用 出 发 我 们 
仍然 采用 这 一 假设 。 在 实际 的 系统 中 会 采用 频次 控制 、 扣 击 反 馈 等 
法 来 对 付 多 次 展示 之 间 效 果 相关 性 的 问题 。 

在 具体 的 广告 产品 中 ， 优 化 公式 2.2 可 能 会 省 略 挥 一 些 内 容 或 二 
数 ， 或 者 增加 一 些 约束 条 件 ， 构 成 该 广告 产品 独特 的 优化 问题 。 在 后 
面 我 们 谈 到 奎 干 广告 产品 的 关键 技术 时 ， 也 会 给 出 其 具体 形式 。 

2.3.1 广告 收入 的 分 解 

下 面 ， 我 们 再 来 进一步 分 解 广告 收入 ， 以 便 引 出 关于 在 线 广告 市 
场 计 费 方式 的 重要 分 析 。 对 一 个 广告 市 场 中 具体 的 产品 形态 ， 我 们 往 
往 能 够 主动 优化 的 是 收入 而 非 成 本 ， 因 此 ， 可 以 主要 关注 收 入 优化 的 
部 分 。 在 一 次 广告 展示 产生 后 ， 有 可 能 发 生 哪些 后 续 行 为 呢 ? 参见 图 2- 
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3: 当 用 户 在 媒体 页 面 的 广告 位 上 看 到 广告 以 后 ， 如 果 产 生 兴 趣 ， 首 先 
产生 的 是 点 击 行为 ， 广 告 点 击 与 广告 展现 的 比率 称 为 点 击 率 (Click 
Through Rate, CTR) ; 点 击 行为 成 功 以 后 ， 将 会 打开 广告 主 的 落地 页 
(landing page) ， 落 地 页 成 功 打开 次 数 与 点 击 次 数 的 比例 称 为 到 达 
率 ， 这 是 在 广告 主 网 站 上 发 生 的 ; 如 果 用 户 从 落地 页 开始 ， 进 一 步 完 
成 下 单 等 操作 ， 则 称 为 转化 ， 转 化 次 数 与 到 达 次 数 的 比例 称 为 转化 率 
(Conversion Rate, CVR) ， 这 是 在 广告 主 网 站 上 或 线 下 发 生 的 。 

展现 页 SES 落地 页 转化 页 
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图 2-3 在 线 广告 产生 效果 的 步 又 


中 比较 合理 且 容 易 操作 的 方式 : 
eCPM = r(a, u,c) = p(a, u, c)  v(a, u, c) (2.3) 


在 后 文中 ， 我 们 都 沿用 这 样 的 符号 表示 : Haeo GB, Hv 
示 点 击 价值 (click value) ， 即 单 次 点 击 为 广告 产品 带 来 的 收益 。 其 中 
前 一 部 分 接 述 的 是 发 生 在 媒体 上 的 行为 ， 后 一 部 分 接 述 的 是 发 生 在 广 
告 主 网 站 上 的 行为 。 而 这 两 部 分 的 乘积 定量 地 表示 了 茶 次 或 才干 次 展 
示 的 期 望 CPM 值 ， 束 是 我 们 前 面 提 到 的 eCPM*。 请 大 家 特别 关注 
eCPM 这 个 指标 ， 因 为 它 是 计算 广告 中 最 第 被 提 及 ， 也 是 最 关键 的 定量 
评 倍 收 益 的 指标 ， 本 书 的 计算 问题 大 都 是 围绕 它 展开 的 。 在 对 多 个 检 
索 候 选 进行 排序 时 ， 是 根据 eCPM 还 是 CTR 排序 也 是 区 别 广告 产品 和 
用 户 产 品 的 重要 党 略 特征 。 进 一 步 ， 如 有 我 们 将 所 有 的 点 击 价值 都 等 
同 起 来 ， 那 么 根据 eCPM 排 序 和 根据 CTR 排 序 实际 上 将 得 到 一 样 的 结 
果 。 因 此 ， 可 以 认为 根据 CTR 排 序 是 根据 CPM 排序 的 一 种 特例 ， 这 也 
使 得 将 内 容 与 广告 统一 排序 的 原生 广告 成 为 可 能 。 

eCPM 一 般 指 的 是 佑 计 的 千 次 展示 收益 ， 它 有 两 个 很 相近 的 概念 : 
如 果 讨 论 的 是 千 次 展示 收入 ， 往 往 用 RPM; 如 果 讨 论 的 是 干 次 展示 成 
本 ， 往 往 用 CPM。 这 三 个 术语 有 时 在 实用 中 的 区 别 并 不 明显 ， 请 大 家 
注意 。 

根据 图 2-3 所 示 的 流程 ， 点 击 价值 还 可 以 进一步 分 解 为 到 达 率 、 转 
化 率 和 客 单价 的 乘积 。 由 于 这 部 分 的 深入 解剖 与 行业 密切 相关 ， 而 且 
更 多 地 属于 站 内 运营 而 非 广告 的 范畴 ， 因 此 在 本 书 中 将 只 在 14.2.3 节 进 
行 简要 的 讨论 。 


2.3.2 结 式 与 eCPM fii 系 


对 于 大 多 数 广告 产品 来 说 ， 需 要 计算 给 定 (a.u. c 三 元 组 的 
eCPM 以 进行 决策 。 可 十 由 于 广告 市 场 的 协作 关系 复杂 ， 并 非 每 个 广告 
产品 都 可 以 对 eCPM 中 的 两 个 步骤 做 出 较 准 确 的 估计 。 根 据 eCPM 的 分 
解决 定 哪 部 分 由 谁 来 估计 是 广告 市 场 各 种 计 费 模式 产生 的 根本 原因 ， 
也 是 广告 市 场 中 商业 逻辑 与 产品 架构 衔接 的 关键 一 环 。 下面 ， 我 们 来 
逐一 分 析 下 市 场 上 主要 的 几 种 广告 计 费 模式 。 

(1) CPM 结 算 ， 即 按照 千 次 展示 结算 。 这 种 方式 是 供给 方 与 需求 
方 约定 好 干 次 展示 的 计 费 标准 ， 至 于 这 些 展示 是 否 能 够 市 来 相应 的 收 
益 ， 由 需求 方 来 估计 和 控制 其 中 的 风险 。 对 于 品牌 广告 ， 由 于 目标 是 
较 长 时 期 内 的 利益 ， 很 难 通过 对 短期 数据 进行 分 析 的 方式 直接 计算 点 
击 价 值 ， 而 点 击 率 也 因为 对 于 用 户 接触 的 核心 要 求 变 得 不 是 唯一 重要 
的 因素 。 在 这 种 情况 下 ， 由 需求 方 根据 其 市 场 策略 与 预算 控制 流量 的 
单价 并 按 CPM 方 式 结算 是 比较 合理 的 交易 模式 。 实 际 上 ， 在 大 多 数 互 
联网 品牌 广告 ， 竺 别 是 视频 广告 中 ，CPM 都 是 主流 的 结算 方式 。 

(2) CPC 结算 ， 即 按 点 击 结算 。 这 种 方式 最 早产 生 于 搜索 广告 ， 
并 很 快 为 大 多 数 效果 类 广告 产品 所 普 电 采用 。 在 这 种 方式 结算 方式 
下 ， 点 击 率 的 估计 是 由 交 给 供给 方 (或 者 中 间 市 场 ) 完成 的 。 点 击 价 
值 的 估计 则 由 需求 方 完成 ， 并 通过 点 击 出 价 的 方式 向 市 场 通知 自己 的 
估价。 这 样 的 分 工 对 于 互联 网 广告 ， 特 别 十 以 效果 为 导 同 的 互联 网 广 
告 而 言 ， 有 痢 清 晰 的 合理 性 : 供给 方 通过 其 收集 的 大 量 用 户 行为 数据 
可 以 相对 准确 地 估计 点 击 率 ， 而 转化 效果 是 广告 丙 站 内 的 行为 ， 当 然 


他 们 自己 的 数据 分 析 体 系 也 就 能 更 准确 地 对 其 作出 评 佑 。 因 此 ， 以 
CPC 方 式 结算 ， 在 效果 类 广告 市 场 中 具有 接近 芍 断 的 地 位 。 

(3) CPS (cost per sale) /CPA (cost per action) /ROI 结 算 ， 即 按 
照 销 售 订 单数 、 转 化 行为 数 或 投入 产 出 比 来 结算 。 这 些 都 是 按照 转化 
付费 的 一 些 变种 。 这 是 一 种 比较 极端 的 结算 方式 ， 即 需求 方 只 按照 最 
后 的 转化 收益 来 结算 ， 从 而 在 最 大 程度 上 规避 了 风险 。 在 这 种 结算 方 
式 下 ， 供 给 方 或 中 间 市 场 除了 估计 点 击 率 还 要 对 点 击 价值 作出 估计 ， 
这 样 才 能 合理 地 决定 流量 分 配 。 这 里 存在 两 个 很 明显 的 问题 。 一 是 转 
化 行为 为 用 户 在 广告 商 站 内 的 行为 ， 并 非 供给 方 能 够 直接 监测 和 控 
制 ， 因 此 无 法 进行 准确 的 估计 和 优化 。 只 有 那些 转化 流程 和 用 户 体 验 
类 似 的 广告 商 组 成 的 广告 平台 按 转化 付费 才 比 较 可 行 ， 典 型 的 例子 就 
是 淘宝 客 广告 。 二 是 实际 执行 中 ， 存 在 广告 主 故意 扣 单 以 降低 转化 
率 ， 从 而 低 成 本 赚 取 大 量 品牌 曝光 的 可 能 。 因 此 ， 我 们 认为 这 种 方式 
主要 适合 于 一 些 垂直 广告 网 络 (vertical ad network) 。 另 外 在 DSP 中 ， 
由 于 需要 完全 代表 广告 主 利益 出 价 和 优化 ， 因 此 也 会 出 现 一 些 跟 广告 
主 之 间 按照 CPS 计 费 的 情形 。 总 体 而 言 ， 对 于 那些 与 广告 主 收益 直接 挂 
钧 的 需求 方 广 告 产品 来 说 ，CPS 在 一 定 条 件 下 是 可 行 的 ;但 是 对 于 普通 
的 中 间 市 场 广 告 产品 来 说 ，CPS 并 不 是 一 种 趋势 性 的 结算 方式 。 而 CPA 
广告 在 移动 应 用 下 载 的 场景 下 ， 由 于 转化 流程 统一 在 Apple Store 或 
Google Play 中 ， 且 存在 较 完 善 的 第 三 方 转化 监测 ， 因 而 市 场 较为 成 
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(4) CPT (costpertime) 结算 ， 这 是 针对 大 品牌 广告 主 特定 的 广 
告 活 动 ， 将 某 个 广告 位 以 独占 式 方式 交 给 某 广告 主 ， 并 按 独占 的 时 间 
段 收取 费用 的 方式 。 严 格 来 说 ， 这 是 一 种 销售 方式 而 非 一 种 计 费 模 
式 ， 因 为 价格 是 双方 事先 约定 ， 无 需 计 量 。 这 种 方式 主要 适用 于 一 些 
强 曝光 属性 ， 有 一 定 定 制 性 的 广告 位 。 在 一 般 的 展示 广告 中 ， 这 种 方 
式 在 欧美 市 场 市 场 并 不 经 常 采 用 ， 但 在 中 国 的 门户 网 站 广告 中 ，CPT 仍 
然 是 一 种 主流 模式 。CPT 这 样 独占 式 的 售卖 虽然 有 一 些 额外 的 品牌 效果 
和 橱窗 效应 产生 ， 但 是 非常 不 利于 受众 定向 和 程序 交易 的 发 展 ， 因 而 
从 长 期 的 角度 来 看 ， 其 比例 会 有 下 降 的 趋势 。 

表 2-1 展 示 了 以 上 几 种 结算 方式 概要 的 对 比 。 综 合 来 看 可 以 认为 ， 
对 于 效果 广告 ，CPC 计 费 方式 最 有 利于 发 挥 供给 方 和 需求 方 的 长 处 ， 
因而 在 市 场 上 被 广泛 接受 ; 对 于 品牌 广告 ， 由 于 效果 和 目的 有 时 不 便 
于 直接 衡量 ， 可 以 考虑 按照 CPM 的 方式 计 费 ， 而 CPS 的 计 费 方式 只 在 
一 些 特定 的 环境 下 才 比 较 合理 。 

表 2-1 在 线 广告 结算 方式 比较 
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ee DE pre A 
wk) 
无 法 利用 受众 定 由 技术 


si 可 以 利用 受众 定 癌 选择 目标 人 群 | 1， 有 受众 选择 震 求 的 品牌 广告 
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l n 以 非常 精细 地 划分 受众 人 群 
mes any 可 以 非常 精细 地 划分 受众 人 科 SMENA 
比较 合理 的 供给 方 和 需求 方 分 工 
Jl 


CPT 高 曝光 的 品牌 广告 


mk CLEA AS 1. BORAT Ti 
供给 方 运 癌 难度 较 大 2, 效果 类 DSP 

既然 广告 有 计 费 的 需求 ， 也 束 同 时 产生 了 效果 监测 的 需求 。 在 
CPM 类 品牌 广告 中 ， 由 于 曝光 在 媒体 上 产生 ， 广 告 主 往往 会 委托 第 二 
方 的 广告 监测 公司 对 曝光 量 、 点 击 量 等 指标 作 技 术 核 实 ， 并 以 此 作为 
结算 的 依据 。 在 CPC 或 CPS 结 算 的 广告 交易 中 ， 由 于 计 费 的 指标 ， 即 
点 击 或 转化 在 广告 主 的 网 站 上 产生 ， 所 以 并 不 需要 特别 的 监测 服务 。 
因此 ， 可 以 认为 广告 监测 主要 服务 的 对 象 是 品牌 广告 主 。 随 着 CPM 广 
告 定向 方式 越 来 越 复 杂 ， 广 告 监测 也 从 简单 的 展示 和 点 击 记 数 到 频 
次 、 人 口 属性 等 信息 的 验证 和 计量 。 关 于 这 方面 的 问题 和 技术 ， 我 们 
将 在 第 15 章 中 再 作 介 绍 。 


2.4 在 线 广告 相关 行业 协会 


CPS/CPA/ROI [RTI 


由 于 供给 方 和 需求 方 的 博 春 关系 ， 需 要 一 些 行业 协会 来 约束 和 规 
范 市 场 。 关 注 这 些 行业 协会 的 立场 与 使 命 对 更 清晰 地 认识 广告 的 商业 
逻辑 大 有 帮助 。 以 最 重要 的 北美 市 场 为 例 ， 主 要 有 三 个 行业 协会 需要 


了 解 。 


交互 广告 局 Interactive eum Bureau , IAB , 
http://www.iab.net) 成 立 于 20 世 纪 末 ， 是 在 线 广 告 领域 最 重要 的 行业 协 
会 ， 其 使 命 是 致力 于 推动 在 线 广告 市 场 的 发 展 。IAB 主 要 是 站 在 供给 
的 长 远 利 益 上 来 研究 和 影 啊 市 场 。 换 名 话说 ，IAB 主 要 天 注 的 是 在 线 广 
告 供 给 方 的 利益 。 正 如 IAB 在 自己 网 站 标题 上 声明 的 那样 ， 这 一 组 织 存 
在 的 使 命 是 “dedicated to the growth of interactive advertising market”, BẸ 
致力 于 交互 广告 市 场 的 壮大 。 而 这 个 方向 的 受益 者 主要 是 各 在 线 媒体 
与 广告 技术 公司 。 因 此 ，IAB 的 典型 会 员 是 Google、Facebook、 
Yahoo!、Microsoft 这 样 的 广告 供给 方 以 及 AudienceScience、MediaMath 
这 样 的 广告 技术 公司 。 广 告 技 术 公 司 和 产品 的 发 展 是 为 了 更 好 地 服务 
广告 主 和 提升 在 线 广告 效果 ， 以 利于 更 多 的 预算 进入 在 线 广告 领域 。 
从 具体 工作 上 看 ，IAB 与 互联 网 大 量 媒体 和 广告 平台 合作 ， 制 定 了 一 系 
列 意义 重大 的 标准 和 规范 ， 这 些 都 极 大 地 促进 了 在 线 广告 行业 的 健康 
发 展 。 其 中 包括 如 下 几 个 重要 的 规范 。 


2.4.1 交互 广告 局 
2.4.1 交互 广告 局 


(1) 横幅 广告 创意 尺寸 标准 。2001 年 IAB 公布 的 标准 仅仅 支持 7 
种 创意 尺寸 ， 即 120x600 (摩天 大 楼 ) 、160x600 〈 宽 摩天 大 楼 ) 
180x150 (长 方形 ) 、300x250 (中 级 长 方形 ) 、336x280 (大 长 方 
JÉ) 、240x400 (EKA) 、250x250 (正方 形 弹 出 ) 。 创 意 尺 寸 的 
统一 化 ， 对 于 在 线 广告 市 场 淡化 广告 位 概念 、 推 广 受 众 定 向 有 着 非常 
根本 的 促进 作用 。 中 国 市 场 与 此 对 比 ， 由 于 广告 位 尺寸 非常 复杂 ， 因 
而 各 个 网 站 之 间 的 壁 双 较 高 ， 非 常 不 利于 定向 广告 和 程序 采 买 的 发 
展 。 


(2) 视频 广告 标准 VAST (digital video ad serving template) ° H 
于 视频 广告 创意 和 展示 形式 比较 复杂 ， 消 耗资 源 也 较 多 ，IAB 制定 了 
一 套 统 一 的 XML Schema 用 于 向 在 线 视频 媒体 投放 视频 流 内 的 广告 ， 
并 对 其 用 户 进行 规范 化 的 描述 ， 这 一 标准 实际 上 减少 了 进入 视频 广告 
领域 的 技术 障碍 ， 使 得 视频 广告 市 场 规模 快速 发 展 成 为 可 能 。 

(3) 通用 实时 竞价 接口 标准 OpenRTB。 实 时 竞价 的 技术 我 们 将 在 
第 6 章 中 介绍 ， 简 单 来 说 ， 这 种 采 买 方式 是 为 了 方便 需求 方 按 照 自己 的 
受众 划分 高 精准 地 采 买 流量 。 假 设 各 个 广告 交易 平台 的 实时 竞价 接口 
不 同 ， 将 意味 着 需求 方 需要 付出 几 倍 的 技术 成 本 以 完成 广泛 的 市 场 对 
接 。 于 是 ，IAB 制 定 了 统一 的 OpenRTB 标 准 ， 将 横幅 广告 、 视 频 广 
告 、 移 动 广告 情形 下 的 实时 竞价 接口 做 了 统一 的 规范 。 


2.4.2 TE 会 


As 


美国 广告 代理 协会 (American Association of Advertising 
Agencies, 4A) 并 不 是 一 个 专门 从 事 互 联网 广告 的 组 织 ， 而 是 线 上 线 
下 各 种 广告 ， 特 别 是 品牌 广告 的 代理 商 在 美国 的 行业 协会 。4A 公司 向 
其 会 员 代 理 公司 约 定 ， 至 少 要 向 广告 主 收取 一 定 比例 的 服务 费用 ， 
一 方面 是 为 了 避免 行业 内 的 恶性 竞争 ， 另 一 方面 也 是 确保 广告 代理 公 
司 能 够 站 在 广告 主 的 利益 角度 考虑 问题 ， 而 后 一 点 对 于 市 场 的 长 期 健 
康 发 展 是 有 很 大 帮助 的 。4A 公 司 的 典型 代表 有 奥 美 
(Ogilvy&Mather) ^ Eh (JWT) ^ SE (McCann) 等 。 值 得 注 
意 的 是 ， 由 于 4A 是 一 个 美国 协会 ， 因 此 严格 意义 上 的 4A 公 司 都 是 美国 
公司 ， 不 过 对 于 另外 一 些 国际 影响 力 较 强 、 业 务 方 式 和 谁 则 与 其 类 似 
的 非 美国 广告 代理 公司 ， 我 们 也 往往 都 将 其 归 为 广义 4A 公 司 的 行列 ， 
典型 的 例子 如 日 本 的 电 通 (Dentsu) 公司 。 


2.4.3 告 商 协会 


AY 


美国 国家 广告 商 协会 (Association of National Advertisers, ANA) 
是 一 个 广告 主 的 协会 ， 也 是 最 彻底 地 代表 需求 方 利益 的 组 织 。 其 会 员 
多 是 AT&T、 宝 洁 (PRG) 以 及 NBA 等 这 些 拥 有 大 量 广告 预算 的 广告 
主 。ANA 对 广告 主 利益 的 维护 可 以 从 一 件 小 事 中 得 到 体现 : 在 微软 宣 


布 考虑 在 IE10 支 持 限 制 第 三 方 cookie 滥 用 的 “do not track (DNT) ”协议 
时 ， 是 ANA 明 确 声明 对 这 样 的 计划 表示 反对 ， 因 为 这 样 将 会 使 得 在 线 
广告 市 场 精确 投 送 广告 的 能 力 受到 很 大 影响 ， 而 这 显然 是 与 广告 主 的 
利益 相 韦 背 的 。 


2.5 延伸 思考 


1.CPA/ROI 的 结算 方式 看 似 对 广告 主 有 利 ， 实 际 也 催生 了 一 些 变形 
的 推广 方式 。 请 考察 你 接触 到 的 CPA/ROI 渠 道 ， 并 研究 其 与 CPM 或 CPC 
渠道 的 关键 差异 

2. 对 广告 产品 而 言 ， 优 化 利润 与 优化 ROI 有 什么 区 别 ? 

3. 在 社交 网 络 中 发 生 的 传播 营销 过 程 与 典型 的 展示 、 扩 击 、 转 化 流 
程 有 很 大 不 同 ， 请 对 此 建立 一 个 合理 的 模型 ， 并 分 析 其 中 的 关键 量化 
指标 。 

注 释 


[了 J 数据 来 源 于 IAB_(http://www.iab.net) 、 艾 瑞 (http;//www.iresearch.cn) 等 机 构 的 市 场 调研 报告 。 
[2]. 资 料 来 源 于 http://www.lumapartners.com/introducing-the-marketing-technology-lumascape/ < 


[3].2012 年 年 底 ， 淘 宝 发 布 声 明 ， 宣 布 终止 与 以 现金 形式 返利 的 淘宝 客 网 站 的 合作 ， 这 正 反映 了 市 场 对 此 问题 的 认 知 正在 趋向 一 致 和 理性 。 

[和 .由 于 CPM 是 千 次 展示 的 收益 ， 因 此 eCPM 实际 上 还 要 乘 以 1000 才能 与 其 相 比较 ， 为 了 表达 简单 起 见 ， 我 们 在 本 书 中 略 去 1000 这 一 固定 系数 。 

[加 .当然 需求 方 不 会 完全 按照 其 点 击 价值 来 出 价 ， 而 是 会 寻求 更 低 的 价格 以 获得 套利 空间 。 因 此 ， 如 何在 市 场 机 制 上 避免 广告 主 积极 地 调整 出 价 ， 以 促进 市 场 
竞争 的 激烈 程度 ， 是 竞价 体系 设计 的 关键 。 我 们 将 在 第 5 章 中 讨论 这 一 问题 。 
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在 线 广 告 不 同 于 传统 线 下 广告 ， 其 产品 形式 (这 里 说 的 并 非 创 意 
形式 ) 相当 丰富 。 在 1.4 节 中 ， 我 们 对 在 线 广告 的 整个 发 展 历程 有 了 初 
步 了 解 ， 如 末 从 产品 的 视角 将 这 一 过 程 提炼 出 来 ， 可 以 用 图 3-1 来 示 


EI: 


(OR ° 竞价 (C | 合约 
CEI 各 AM | 广告 rs 


社交 网 络 广告 


信息 流 广告 


植 入 式 原生 广告 


EDT 


程序 化 交易 广告 


图 3-1 在 线 广告 产品 进化 示意 
我 们 将 图 3-1 中 的 产品 分 为 4 个 部 分 ， 这 些 将 在 后 面 几 章 中 分 别 介 


(1) 合约 广告 产品 : 它 由 线 下 广告 的 交易 形式 衍生 而 来 ， 又 可 以 
分 为 按照 时 段 售卖 的 CPT 广 告 和 按照 约定 展示 量 售卖 的 CPM 广告 。 这 
类 广告 产品 主要 服务 于 后 续 效果 不 宜 直 接 衡量 的 品牌 类 广告 主 ， 在 门 
户 网 站 和 视频 网 站 较为 常见 。 

(2) 竞价 广告 产品 : 其 最 重要 的 形式 是 搜索 广告 ， 其 产品 形式 为 
对 搜索 关键 词 的 竞价 。 这 种 广告 在 拓展 到 站 外 展示 广告 流量 时 ， 演 进 
成 了 对 页 面 关 键 词 或 者 用 户 标签 竞价 的 产品 形式 ， 也 就 是 ADN。 竞 价 
广告 的 商业 逻辑 与 合约 广告 完全 不 同 ， 也 是 解决 效果 类 广告 需求 的 关 
键 产品 形式 。 

(3) 程序 化 交易 广告 产品 : 竞价 广告 的 进一步 发 展 催生 了 实时 竞 
价 的 交易 形式 。 实 时 竞价 使 得 需求 方 可 以 更 灵活 地 划分 和 选择 自己 的 
目标 受众 ， 也 使 得 更 广泛 的 数据 使 用 和 交易 迅速 发 展 起 来 。 以 实时 竞 
价 为 核心 的 一 系列 交易 方式 逐渐 演变 为 机 器 之 间 以 程序 化 的 方式 完成 
告 交易 决策 ， 因 此 ， 这 类 产品 称 为 程序 化 交易 广告 产品 。 

(4) 原生 广告 产品 : 广告 的 产品 体系 除了 自身 的 演进 ， 另 一 个 重 
要 课题 是 如 何 处 理 与 非 商 业 化 内 容 的 关系 ， 让 广告 与 内 容 尽 可 能 以 “ 原 
生 ” 的 方式 共存 。 搜 索 广 告 和 社交 网 络 信息 流 广告 对 此 作 了 非常 有 价值 
的 探索 ， 不 过 这 样 的 原生 广告 在 规模 化 和 区 易 化 方面 也 遇 到 了 很 多 的 
问题 。 然 而 ， 随 着 近年 来 移动 设备 对 于 原生 广告 的 强烈 渴求 ， 像 标准 
ADN 那 样 的 原生 广告 平台 正在 快速 发 展 中 。 


对 于 每 一 种 广告 的 产品 形态 来 说 ， 都 可 能 会 有 三 个 主要 的 组 成 部 
分 : 面向 需求 方 的 接口 、 面 向 供给 方 的 接口 、 中 间 的 投放 系统 及 匹配 
策略 。 根 据 产品 的 不 同 ， 其 中 接口 的 形式 可 以 是 面向 人 工 操 作 的 界 
面 ， 也 可 以 是 机 器 间 通 信 的 接口 。 这 些 广告 中 的 产品 环节 ， 都 属于 商 
业 产 品 的 范畴 ， 我 们 将 先 对 这 类 产品 设计 的 主要 原则 以 及 需求 方 和 供 
给 方 界 面 的 一 般 情 形 进行 介绍 ， 为 后 面 几 章 中 按 上 述 的 四 个 部 分 分 别 
介绍 广告 产品 做 准备 。 


3.1 商业 产品 的 设计 原则 


商业 产品 指 的 是 面向 商业 客户 而 非 一 般 用 户 的 产品 ， 其 中 最 典型 
的 代表 就 是 互联 网 广告 产品 。 其 他 的 一 些 面 向 客户 的 互联 网 产品 ， 如 
客户 关系 管理 (Customer Relation Management，CRM) 、 网 站 分 析 

(Web Analytics, WA) 以 及 后 面 要 提 到 的 数据 管理 平台 (Data 

Management Platform, DMP) 等 ， 也 属于 商业 产品 的 范畴 。 商 业 产品 
的 设计 和 运营 有 着 一 定 的 共性 原则 ， 我 们 有 必要 在 这 里 提 一 下 。 

互联 网 是 一 个 产品 驱动 的 行业 。 熟 悉 产 品 设计 的 读者 应 该 了 解 ， 
用 户 产 品 演 进 的 根本 驱动 力 是 人 们 追求 方便 的 天 性 。 因 此 ， 用 户 产品 
的 设计 原则 总 是 朝 着 更 简单 、 更 直观 、 更 快捷 的 方向 努力 。 而 相应 的 
产品 设计 重点 也 集中 在 关键 功能 的 突出 、 损 作 过 程 的 流畅 等 方面 。 

然而 ， 如 果 有 机 会 参与 商业 产品 的 设计 和 运营 ， 你 就 会 发 现 ， 其 
中 关注 的 重点 和 运营 的 方式 有 相当 大 的 区 别 。 有 时 候 良 好 的 用 户 体 


验 ， 并 不 一 定 能 带 来 一 款 商 业 产 品 良好 的 口碑 或 市 场 上 的 成 功 ， 这 是 
为 什么 呢 ? 简单 来 说 ， 商 业 产 品 一 般 都 有 一 个 明确 的 商业 目标 ， 而 商 
业 产 品 的 使 用 者 选用 一 款 产 品 的 动力 也 是 为 了 优化 这 个 商业 目标 。 例 
如 ， 广 告 ， 其 使 用 者 不 论 是 媒体 、 代 理 或 广告 主 ， 都 是 为 了 优化 目 已 
的 利润 。 因 此 ， 对 这 类 产品 的 选择 标准 是 客观 的 ， 也 是 可 衡量 的 。 
Google AdWords 之 所 以 为 大 量 的 中 小 广告 主 广 泛 采 用 ， 主 要 原因 并 不 
是 因为 AdWords 的 使 用 便捷 性 远 超 同类 产品 ， 而 是 因为 其 推广 效果 有 
目 共 睹 。 因 此 ， 商 业 产 品 的 任何 一 项 功能 改进 ， 只 要 能 带 来 其 对 应 商 
业 目 标的 提升 机 会 ， 即 使 在 使 用 流程 上 引入 一 些 不 便 ， 也 是 可 以 接受 
有 的。 这样 的 产品 原则 带 来 的 结果 正如 图 1-9 所 示 ， 整 个 广告 市 场 的 交易 
环 广 越 来 越 复杂 ， 使 用 门 柜 也 越 来 越 高 ， 这 与 用 户 产 品 简 化 的 大 趋势 
是 非常 不 同 的 。 

在 优化 既定 商业 目标 这 一 商业 产品 的 总 体 原则 下 ， 我 们 在 商业 产 
品 运 营 过 程 中 有 一 些 需 要 注意 的 关键 点 。 

(1) 相对 于 产品 功能 ， 要 特别 关注 产品 中 的 策略 部 分 。 策 略 本 身 
是 商业 产品 非常 关键 的 环节 ， 以 广告 为 例 ， 竞 价 中 的 机 制 设 计 、 冷 局 
动 时 的 数据 探索 、 受 众 定 向 的 标签 体系 都 是 产品 策略 需要 考虑 的 内 
容 。 策 略 上 看 似 简单 的 调整 往往 能 带 来 广告 系统 收入 上 巨大 的 变化 。 
与 一 般 产 品 不 同 ， 这 些 策略 的 制定 既 需 要 对 于 广告 市 场 深 入 的 了 解 ， 
又 需要 许多 扎实 的 基础 知识 。 对 于 刚 开 始 进入 广告 产品 领域 的 读者 ， 


将 关注 点 集中 在 这 些 “ 看 不 见 的 产品 特征 > 上 是 需要 下 大 工夫 体会 和 实 
IX ° 

(2) 要 特别 关注 数据 ， 让 运营 和 产品 优化 形成 闭环 。 由 于 商业 产 
品 的 目标 古 确 定 和 可 优化 的 ， 所 有 产品 特征 和 策略 的 成 功 与 否 要 严格 
根据 数据 的 反馈 来 判断 。 同 时 ， 新 产品 功能 的 规划 也 要 在 洞察 历史 数 
据 和 其 他 用 户 产 品 数 据 的 基础 上 进行 。 从 数据 分 析 开 始 ， 以 数据 结 
束 ， 这 样 的 闭环 式 迭 代 是 最 适合 商业 产品 的 开发 模式 。 

(3) 当然 ， 在 所 有 与 使 用 者 打交道 的 产品 界面 上 ， 用 户 产 品 追 求 
便捷 性 的 设计 原则 依然 非常 重要 。 不 过 在 商业 产品 中 ， 实 现 功 能 以 外 
过 于 新 奇 、 炫 酷 的 产品 外 观 和 交互 模式 古 应 当 避 免 的 。 

由 于 本 书 探讨 的 是 计算 广告 这 一 典型 的 两 业 产品 ， 我 们 也 会 将 重 
扩 放 在 广告 投放 、 交 易 、 筑 略 、 数 据 使 用 和 交易 等 产品 环 太 上 ， 而 对 
于 广告 系统 与 需求 方 或 供给 方 的 界面 接口 ， 将 只 在 下 面 作 简要 的 介 


ZH 


3.2 需求 方 层 级 组 织 与 接口 


由 于 广告 市 场 的 复杂 性 ， 一 个 广告 系统 的 需求 方 有 可 能 是 广告 
主 、 代 理 公司 、TD 或 者 DSP。 无 论 面 对 哪 种 需求 方 ， 一 般 来 说 ， 我 们 
都 需要 一 个 操作 界面 让 其 对 预算 、 广 告 投放 条 件 和 其 他 策略 做 设置 。 

一 般 来 说 ， 需 求 方 提供 的 广告 是 分 层次 管理 的 。 在 市 场 上 大 多 数 
Hy mPa JEBEUXSAPSXOISe EJ i Xl 


(campaign) 、 广 告 (推广 ) 组 (ad goup) 、 广 告 创意 (creative) 等 
几 个 层级 ， 参 见 图 3-2。 其 中 广告 主 层 级 管理 一 个 广告 主 的 通用 信息 ， 
而 其 他 三 个 层级 则 与 具体 的 投放 管理 相关 ， 我 们 来 分 别 介绍 一 下 。 


ES 


E 告 创 意 ; 


图 3-2 广告 层级 关系 示意 


(1) 广告 计划 概念 上 对 应 于 广告 主 的 一 次 投放 合同 ， 其 中 包括 了 
预算 、 时 间 殉 围 等 基本 信息 ， 参 见 图 3-3 中 的 示例 。 除 了 这 些 信息 以 
外 ， 图 中 还 有 另外 的 一 些 相 关 设 置 ， 例如， (a) 在 有 多 个 广告 产品 可 
供 选择 时 ， 要 在 广告 计划 中 确定 投放 的 是 哪个 产品 ， 如 图 中 的 “选择 投 
放 网 络 * 部 分 ; (b) 预算 的 分 配 策略 (pacing) ， 即 图 中 的 “预算 分 配 
控制 ?部 分 。 对 于 大 多 数 广告 计划 ， 较 为 均匀 地 分 配 预 算 可 能 比较 合 
理 ， 但 羡 对 于 游戏 开 服 、 移 动 应 用 冲 榜 等 类 型 的 推广 ， 预 算 的 集中 人 花 
费 则 很 重要 。 


设置 推广 计划 
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ARRIA: MAMA 乓 标示 广告 -在 PC 尖 的 流量 中 投放 你 的 展示 和 


© RANA E - 针对 搜索 过 特定 关键 词 的 人群 投放 文字 链 广告 


© 商品 推荐 广告 - 您 的 产品 库 没有 符合 条 件 的 商品 了 解 详情 


预算 和 时 间 


: MARAA 
不 限 预算 时 每 日 投放 量 没有 上 限 ,设置 预算 后 , 当 消 费 达 到 预算 后 即 不 再 投放 ， 


* 预算 分 配 控制 ， @ 标准 ; 将 每 日 预算 均匀 地 分 配 到 整个 投放 日 程 中 
© Ihe : R 可 能 地 将 每 日 预算 花费 出 去 


时间-- 
* 开 始 时 间 : | 2014-09-17 
ERNA: | BEP RR, 


* 按 小 时 投放 : 全 日 程 展示 广告 (当前 排 期 时 区 : GMT+08:00) BEX 


图 3-3 广告 计划 设置 示意 

(2) 广告 组 对 应 于 一 个 具体 的 广告 投放 策略 ， 主 要 是 设 定 受众 定 
向 条 件 和 出 价 ， 参 见 图 3-4 中 的 示例 。 广 告 组 最 重要 的 功能 是 设置 各 种 
各 样 的 定向 条 件 ， 因 而 是 广告 效果 优化 的 关键 层级 。 另 外 ， 对 媒体 的 
选择 也 可 以 认为 是 一 种 定向 条 件 。 值 得 注意 的 是 出 价 一 一 在 后 面 我 们 
将 要 介绍 的 竞价 类 广告 产品 中 ， 出 价 是 由 广告 主 自行 设置 ， 而 非 预 先 
约定 。 而 对 于 出 价 与 能 获得 流量 的 规模 和 质量 的 关系 ， 广 告 主 很 难 有 
直觉 上 的 认识 。 因 此 ， 从 产品 的 角度 来 说 ， 往 往 需 要 给 出 一 些 有 意义 
的 提示 ， 如 根据 当前 出 价 做 的 流量 预 佑 ， 或 者 如 图 3-4 中 所 示 比 较 直接 
的 “建议 出 价 ”。 


* 推广 组 名 称 : | 
建议 您 根据 媒体 、 人 和 群 或 活动 内 容 来 命名 ， 以 便于 调整 投放 和 报表 查看 


加 载 现 有 推广 组 。 | 选择 推广 组 Ig 
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国家 /地 区 : HEA 修改 
MEER: @ 不 限 O tten © t-i 
排除 地 区 :清治 和 拉 音 或 中 广 
-人群 定 向 - 


指定 关键 词 ; 已 添加 关键 词 数量 : 0/5000 修改 


用 户 在 时 里 看 到 我 的 广告 
一 媒体 定向 - 
选择 媒体 ， @ MEER o 指定 广告 位 


高 级 设置 
出 价 ( 按 第 二 高 价 和 创意 质量 度 计 费 ， 将 不 会 高 于 您 的 实际 出 价 ) 


HUHN): CN/ 图 CC @CPM 


NHY) ; 0.10-1.15 


( 推广 组 的 出 价 将 作为 每 个 关键 词 的 默认 出 价 ， 您 也 可 以 在 关键 词 列表 中 单独 修改 每 个 关键 词 的 出 价 


图 3-4 广告 组 设置 示意 
(3) 广告 创意 则 是 最 终 展 示 出 来 的 素材 ， 可 能 在 同一 个 组 策略 下 
有 不 同 尺寸 的 创意 存在 ， 参 见 图 3-5 中 的 示例 。 对 于 文字 链 类 型 的 创 
意 ， 基 本 素材 包括 标题 、 描 述 等 内 容 ; 而 对 于 图 片 类 型 的 创意 ， 则 直 
接 上 传 图 片 素材 。 另 外 广告 创意 的 必要 设置 还 应 包括 展示 和 点 击 的 监 
测 地 址 等 。 为 了 方便 广告 投放 人 员 直 观 地 看 到 创意 的 展示 效果 ， 往 往 
还 会 提供 创意 预览 功能 《如 图 3-5 右 侧 的 “预览 区 ”) 。 
关于 需求 方 设置 管理 的 细节 功能 ， 在 不 同 的 产品 中 可 能 会 有 较 大 
的 差别 ， 但 是 这 样 的 4 层级 组 织 方式 是 比较 通用 的 。 除 了 业务 管理 的 便 
捷 性 ， 这 样 的 层级 结构 还 为 数据 统计 和 建 模 提 供 了 天 然 的 、 合 理 的 层 
级 结构 ， 让 新 创意 的 冷 启 动 问题 变 得 容易 一 些 。 在 后 文 介绍 各 类 广告 
产品 时 ， 我 们 会 重点 关注 其 商业 逻辑 和 产品 策略 ， 而 对 于 界面 上 投放 
管理 的 功能 不 再 展开 讨论 。 
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后 击 地 址 和 显示 地 址 应 为 同一 个 网 站 域名 下 的 网 直 
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图 3-5 广告 创意 设置 示意 
对 于 投放 规模 很 大 的 广告 主 或 代理 ， 所 有 的 操作 都 通过 类 似 上 面 
的 界面 人 工 完 成 是 非常 低 效 的 。 对 于 这 样 的 情形 ， 广 告 平台 一 般 会 提 
供与 界面 功能 相对 应 的 API 接 口 "， 以 便 大 的 需求 方 用 编程 的 方式 进 
批量 投放 和 优化 。 不 过 ， 需 求 方 也 有 可 能 大 量 小 用 API 来 做 一 些 组 合 或 
测试 投放 ， 这 会 使 得 投放 系统 的 压力 大 增 ， 因 此 在 实际 运营 中 要 对 市 
宽 或 操作 次 数 作 一 定 的 限制 。 


3.3 供给 方 管理 接口 


在 目前 的 主流 的 广告 交易 逻辑 中 ， 供 给 方 即 媒体 对 业务 的 控制 比 
起 需求 方 来 要 弱 很 多 。 供 给 端的 资源 组 织 主 要 分 媒体 和 广告 位 两 个 层 
次 。 其 中 媒体 可 以 是 网 站 ， 也 可 以 是 移动 应 用 开发 者 。 

媒体 的 操作 比 广告 主 方 要 简单 ， 一 般 来 说 ， 添 加 、 删 除 广告 位 以 
及 查看 各 广告 位 的 运营 数据 是 主要 的 功能 需求 。 这 一 接口 的 功能 性 示 


例 见 图 3-6 (广告 位 名 称 已 经 被 隐 去 ) 。 
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2014-11-28 238,602,848 190153 0.0835%  ¥68,692,58 
2014-11-28 0 0 0.000096 
2014-11-28 376,409,825 104798. 0187296 
2014-11-28 1331921299 944,687 0.0709% 
2014-09-25 960408049 — 4094441 0.4263% 
2014-07-18 127,600 104 0,0815% 
2014-06-10 237,264 185, 0.0780% 
2014-06-10 295,444 266, 0.0900% 
2014-06-10 362,509 352 0.0971% 
2014-06-10 435,934 447 0.1025% 


2014-06-10 530,349 526 0.0992% 


图 3-6 媒体 广告 位 管理 示意 
对 于 其 中 的 某 个 具体 广告 位 ， 根 据 产品 功能 的 不 同 ， 需 要 的 操作 
功能 也 不 同 。 但 一 般 来 说 ， 设 定 广 告 位 尺寸 、 取 广告 投放 代码 或 SDK 
以 及 设 定 该 广告 位 对 广告 类 型 的 要 求 是 一 些 通用 的 需求 。 在 广告 管家 


或 SSP 之 类 的 供给 方 产品 中 ， 往 往 还 会 有 精细 的 流量 分 配 功能 。 需 要 注 
意 的 是 ， 广 告 平台 会 维护 各 个 广告 位 对 应 的 域名 或 应 用 名 ， 以 防 其 他 
域名 的 流量 盗用 广告 位 代码 。 

上 上面 介绍 的 这 种 比较 价 单 的 供给 方 管 理 接 口 主 要 用 于 一 般 的 ADN 
或 ADX， 而 在 媒体 需要 深度 参与 的 原生 广告 中 ， 这 样 简 单 的 对 接 方 式 
不 再 适用 ， 关 于 这 部 分 内 容 参 见 第 7 章 


3.4 延伸 思考 
1. 请 研究 你 熟悉 的 革 一 个 商业 产品 ， 并 探讨 其 与 用 户 产品 在 设计 和 


运营 方面 的 不 同 之 处 。 
2 如果 向 需求 方 提供 API 来 替代 一 般 的 UI 投 放 方式 ， 会 对 广告 产品 

的 运营 产生 什么 样 的 影响 ? 

本 书 由 'ePUBw.COM | 整理 ，ePUBw.COM 提 


供 最 新 最 全 的 优质 电子 书 下 载 ! 


AX 合约 广告 
从 本 章 开 始 ， 我 们 将 对 在 线 广告 一 些 主要 的 产品 形态 和 相应 的 商 
业 逻 辑 展 开 讨 论 。 先 从 按照 合约 的 方式 售卖 的 广告 产品 开始 ， 这 部 分 
产品 在 整体 产品 演进 过 程 的 中 的 位 置 如 图 4-1 所 示 。 


ae Dt (C 合约 
CPT 广 千 线 下 广告 ~ 出 | 广告 


Fo d 搜索 广告 社交 网 络 广告 

Es 

精准 定 问 广 告 上 下 文 广告 信息 流 广 告 
REN 植 和 人 式 原生 广告 


程序 化 交易 广告 


图 4-1 合约 广告 产品 
互联 网 广告 业务 的 初始 阶段 ， 拥 有 流量 的 媒体 与 需要 广告 货源 的 
代理 商 十 市 场 的 主要 参与 着 。 线 下 广告 的 商业 逻辑 也 被 照搬 到 了 线 
上 ， 由 广告 代理 公司 和 媒体 签订 协议 ， 确 保 某 些 广告 位 在 某 时 间 段 为 


指定 的 广告 商 所 占有 ， 同 时 广告 商 按 整 体 合 同文 付 广告 费用 。 这 种 按 
CPT 结 算 的 广告 位 合约 方式 对 技术 的 依赖 性 较 小 ， 只 需要 用 到 简单 的 广 
告 排 期 系统 。 

合约 式 广告 的 重点 是 按 CPM 计 费 的 展示 量 合约 广告 。 这 种 方式 仍 
然 以 合同 的 方式 确定 一 次 广告 活动 的 投放 总 量 和 展示 单价 ， 但 是 售卖 
的 对 象 已 经 由 “广告 位 ?进化 到 了 “广告 位 + 人 和 群 *。 这 可 以 说 是 在 线 广告 
发 展 史上 的 一 个 重要 里 程 碑 ， 而 数据 也 被 直接 应 用 在 广告 的 商业 活动 
中 。 从 供给 方 产品 和 技术 的 复杂 程度 来 看 ，CPM 合 约 甚 至 比 以 后 的 竞 
价 系统 更 加 复杂 ， 其 复杂 性 主要 来 源 于 多 个 合约 对 投放 系统 提出 的 量 
的 约束 。 

在 展示 量 合约 广告 中 ， 需 求 方 的 产品 技术 并 没有 太 大 发 展 。 这 是 
因为 所 有 广告 投放 的 执行 要 求 都 以 合约 的 形式 交 由 供给 方 来 完成 了 ， 
需求 方 并 没有 技术 上 优化 的 空间 。 而 正 是 由 于 需求 方 对 深入 优化 效果 
的 需求 进一步 发 展 ， 才 产生 了 按照 竞价 方式 来 售卖 的 广告 系统 ， 硕 望 
大 家 通过 本 章 中 合约 广告 的 讨论 ， 能 够 理解 这 种 交易 形态 进化 的 内 在 
BI] ° 


4.1 广告 位 合约 


广告 位 合约 是 最 早产 生 的 在 线 广 告 售卖 方式 。 它 是 指 媒 体 和 广告 
主 约定 在 某 一 时 间 段 内 、 在 茶 些 广告 位 上 固定 投 送 该 广告 主 的 广告 ， 
相应 的 结算 方式 为 CPT。 这 是 一 种 典型 的 线 下 媒体 广告 投放 模式 ， 在 


互联 网 广告 早期 也 很 目 然 地 被 采用 。 这 种 方式 的 缺 后 非常 明显 ， 即 无 
法 做 到 按 受众 类 型 投放 广告 ， 因 而 也 无 法 进行 深入 的 效果 优化 。 可 以 
说 ,广告 位 并 不 是 目前 互联 网 广告 的 主流 模式 。 

不 过 ， 这 种 方式 在 一 些 特定 的 场景 下 也 有 一 定 的 好 处 : EE, TE 
一 些 强 上 曝光 属性 的 广告 位 & 上 采用 这 种 独 丘 式 的 广告 投放 ， 往 往 可 以 有 
效 地 给 用 户 市 来 品牌 冲击 ; 而 在 其 他 一 些 横幅 位 置 长 期 独占 式 的 购 丈 
有 利于 形成 * 概 窗 效 应 ”， 塑 造 不 断 欧 升 的 品牌 价值 和 转化 效果 ;还 有 
一 点 ， 这 种 销售 模式 由 于 可 以 同 广 告 主 提供 一 些 额 外 的 附加 服务 ， 比 
如 同一 个 页 面 上 的 壳 品 互生， 使 得 高 溢价 的 流量 变现 成 为 可 能 。 

随 着 受众 定向 技术 的 发 展 ， 广 告 位 独占 式 售 卖 的 执行 方式 也 发 生 
了 很 大 的 变化 。 即 使 某 个 广告 位 全 部 投放 一 个 广告 主 的 创意 ， 也 并 不 
意味 着 一 定 要 投放 同样 的 一 款 创意 ， 而 受众 定向 在 其 中 也 可 以 起 到 很 
重要 的 作用 。 例 如 ， 某 汽车 生产 商 广 告 主 旗下 可 能 有 多 个 系列 的 产 
m, WEE ` KEHE ` RPE ` SUVE, MAZEE EK 
人 群 其 实 也 有 很 大 的 区 别 ， 如 采 能 够 对 这 些 系列 的 受众 分 别 投 送 相应 
的 创意 ， 就 可 以 取得 更 好 的 效果 。 另 外 ， 即 使 在 受众 上 无 法 区 分 的 情 
形 下 ， 也 可 以 利用 频次 控制 的 方式 辐 同 一 用 户 递 进 式 地 展示 一 系列 创 
意 ， 以 达到 更 好 的 效果 。 这 些 与 受众 定向 结合 的 广告 位 独占 式 售 卖 实 
际 上 与 其 他 非 独 占 式 的 售卖 在 系统 实现 上 没有 本 质 区 别 了 。 

广告 位 合约 还 有 一 种 变形 的 形式 ， 即 按照 广告 位 的 轮 播 售卖 。 在 
这 种 方式 中 ， 同 一 个 用 户 对 同一 个 广告 位 的 一 系列 访问 ， 被 依次 标 上 


一 组 循环 的 轮 播 顺序 号 ， 如 {1，2，3}。 将 其 中 具有 同样 顺序 号 的 展示 
作为 一 个 虚拟 的 广告 位 ， 售 卖 给 广告 主 。 需 要 注意 的 是 ， 对 某 一 个 用 
户 而 言 ， 第 一 次 展示 的 顺序 号 不 应 该 设 为 1， 而 是 应 该 按 相等 概率 从 所 
有 轮 播 顺 序号 中 随机 选取 一 个 ， 并 从 此 开始 累加 和 循环 。 这 样 做 是 为 
了 保证 各 个 轮 播 分 配 到 的 流量 一 致 。 这 种 轮 播 的 售卖 方式 在 广告 位 独 
占 式 售卖 库存 不 够 而 广告 主 又 需要 确定 的 展现 规则 保证 时 ， 被 较 广 泛 
地 采用 ， 特 别 是 在 中 国门 户 网 站 的 品牌 广告 中 。 

在 CPT 售 卖 的 情形 下 ， 供 给 方 和 需求 方 的 计算 需求 和 技术 成 分 都 不 
太 高 。 广 告 主 的 营销 需求 往往 是 4A 或 其 他 代理 公司 进行 媒介 采 买 
(media buy) 。 而 对 于 广告 质 和 量 两 方面 的 要 求 ， 也 都 是 根据 代理 公 
司 人 员 对 媒体 广告 位 的 历史 经 验 以 及 对 广告 主 业务 的 了 解 通过 人 工 优 
化 的 方式 来 满足 。 对 于 供给 方 ， 即 媒体 而 言 ， 往 往 会 使 用 一 种 在 合同 
确定 以 后 自动 地 执行 合同 的 广告 管理 工具 ， 或 者 称 为 广告 排 期 系统 。 

广告 排 期 系统 的 代表 性 产品 有 DoubleClick 的 DFP 以 及 中 国 市 场 上 
WHP (Allyes) 的 类 似 产 品 ， 还 有 免费 给 中 小 网 站 使 用 的 百度 广告 管家 
等 。 当 然 ， 排 期 等 基础 功能 都 是 这 些 产品 早期 的 形态 ， 随 着 受众 定 
向 、 实 时 竞价 等 广告 投放 方式 越 来 越 普及 ， 这 些 产品 的 功能 也 都 逐渐 
演进 ， 从 简单 的 广告 排 期 管理 逐渐 拓展 出 其 他 售卖 方式 下 媒体 需要 的 
功能 ， 如 果 结 合 了 动态 分 配 和 RTB 等 功能 ， 也 就 接近 于 供给 方 平 台 了 。 


4.2 SAKE [H] 


从 我 们 马上 将 要 谈 到 的 展示 量 合约 开始 ， 大 多 数 广告 产品 的 基础 
征 按照 受众 售卖 。 因 此 ， 受 众 定 癌 生 其 非常 重要 的 文 持 技术 。 当 然 ， 
受众 定 癌 本 吴 的 重要 性 和 应 用 犯 围 远 远 超 过 合约 广告 领域 ， 而 在 各 种 

介 广 告 产 品 中 也 尤其 重要 。 因 此 ， 我 们 先 对 受众 定 同 这 一 核心 的 广 
产品 策略 进行 整体 介绍 。 

随 着 在 线 广 告 技 术 和 业务 的 发 展 ， 产 生 了 各 种 各 样 的 受众 定 同 方 
法 ， 这 些 方法 的 综合 应 用 使 得 广告 的 精准 程度 越 来 越 高 。 在 考察 某 种 
定 癌 方法 时 ， 主 要 有 两 个 方面 的 性 能 需要 关注 : 一 是 定向 的 效果 ， 即 
符合 该 定 同 方式 的 流量 上 高 出 平均 eCPM 的 水 平 ， 二 是 定向 的 规模 ， 
即 这 部 分 流量 占 整 体 广 告 库存 流量 的 比例 。 当 然 ， 效 果 好 、 禾 盖 率 叉 
高 的 定向 方法 是 我 们 追求 的 目标 ， 不 过 往往 难以 两 人 全。 因此， 广告 系 
统 有 必要 同时 提供 多 种 定 同方 法 的 文 持 ， 以 达到 整体 流量 上 质 的 最 优 
化 。 


我 们 先 来 看 一 些 市 场 上 比较 流行 的 定 辣 方式 。 按 照 其 有 效 性 和 在 
广告 信息 接受 过 程 中 起 作用 的 阶段 ， 对 照 第 1 章 中 的 广告 有 效 性 模型 ， 
我 们 把 这 些 定向 方式 按照 粗略 的 定性 评估 表示 成 图 4-2。 

在 图 4-2 中 ， 水 平方 向 表 示 的 古 定 辣 技 术 在 广告 信息 接收 过 程 中 大 
致 起 作用 的 阶段 ， 而 垂直 方 同 为 定性 的 效 来 评价 。 对 受众 是 同 的 一 些 
典型 方法 ， 我 们 举例 说 明 如 下 。 


(1) 地 域 定 向 (geo-targeting) 。 这 是 一 种 很 直觉 也 很 早 就 被 广泛 
使 用 的 定向 方式 。 由 于 很 多 广告 主 的 业务 有 区 域 特性 ， 地 域 定向 的 作 
用 相当 重要 ， 也 是 所 有 在 线 广 告 系 统 部 必须 支持 的 是 同 方式 。 地 域 定 
向 也 可 以 认为 是 一 种 上 下 文 定向， 不 过 其 计算 简单 ， 仪 仅 需 要 简单 的 
查 表 束 可 以 完成 。 地 域 定 同 是 一 种 不 可 或 缺 的 流量 选择 手段 。 举 个 例 
T. 假设 某 电 商 网 站 只 在 北京 运营 和 送 货 ， 那 么 其 效果 广告 一 般 来 说 
应 该 定 同 在 北 泵 的 区 域内 ， 否 则 一 个 其 他 省 的 顾客 点 击 广 告 进入 购物 
环节 后 ， 如 果 发 现 无 法 结算 ， 将 会 是 非常 差 的 用 户 体验 。 
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图 4-2 常见 受众 定 同 方法 一 宽 
(2) 人 口 属性 定向 (demographical targeting) 。 人 口 属 性 定向 虽 
然 在 效果 上 未 必 特 别 突出 ， 但 是 由 于 在 传统 广告 的 话语 体系 中 大 量 使 
用 这 类 标签 来 表达 受众 ， 因 此 它 特别 为 品牌 广告 主 所 熟悉 。 在 在 线 广 
告 的 品牌 合约 中 也 经 常会 有 对 人 口 属性 的 要 求 。 人 口 属 性 的 主要 标签 


包括 年 龄 、 性 别 、 教 育 程度 、 收 入 水 平等 。 人 口 属性 有 一 点 与 兴趣 标 
签 不 同 ， 那 就 是 它 是 可 以 监测 的 ， 即 可 以 用 采样 加 调研 的 方法 来 判断 
一 次 人 口 属性 定 同 广告 活动 受众 中 有 多 少 比 例 是 正确 的 。 因 此 ， 在 按 
CPM 结 算 的 广告 中 ， 人 口 属性 比 其 他 定向 标签 为 广告 主 接受 的 程度 更 
am 
需要 说 明 的 是 ， 除 非 有 特别 的 专门 数据 来 源 ， 如 实名 制 SNS 的 注 

册 信 息 或 在 线 购 物 的 消费 记录 等 ， 一 般 情 况 下 要 进行 准确 的 人 口 属性 
定 癌 并 不 容易 。 在 人 口 属性 数据 履 届 率 不 足 的 情况 下 ， 如 果 要 按照 这 
种 定 癌 进行 CPM 和 售卖， 我 们 可 以 用 已 知人 口 属性 的 用 户 作为 训练 集 ， 
构造 分 类 器 对 人 口 属性 进行 目 动 标 注 。 一 般 来 说 ， 采 用 分 类 器 的 方法 
确定 人 口 属 性 准确 程度 有 限 。 在 单纯 效果 类 的 广告 活动 中 ， 预 测 人 口 
属性 的 必要 性 不 太 高 ， 因 为 预测 出 来 的 人 口 属性 也 是 根据 用 户 其 他 行 
为 特征 得 到 的 ， 并 不 能 提供 额外 的 信息 量 。 

(3) 频道 定向 (channel targeting) 。 频 道 定向 是 完全 按照 供应 方 
的 内 容 分 类 体系 将 库存 按照 频道 划分 ， 对 各 频道 的 流量 投 送 不 同 的 广 
告 。 这 种 定向 方式 比较 适用 于 那些 离 转化 需求 比较 近 的 牌 直 类 媒体 ， 
如 汽车 、 母 案 、 购 物 导航 等 。 对 于 内 容 覆 盖 面 比较 党 的 媒体 ， 这 种 方 
式 取 得 的 效 末 是 有 限 的 。 举 一 个 极端 的 例 于 ， 如 采 我 们 把 某 网 站 的 军 
事 频 道 作为 一 个 定 癌 标签 ， 那 么 很 难 找到 直接 匹配 的 广告 需求 。 

(4) 上 下 文 定向 (contextual targeting) 。 将 频道 定向 这 种 方法 加 
以 推广 ， 可 以 根据 网 页 的 具体 内 容 来 匹配 相关 的 广告， 这 就 是 上 下 文 


定向 。 上 下 文 定向 的 粒度 可 以 是 关键 词 、 主 题 ， 也 可 以 是 根据 广告 主 
需求 确定 的 分 类 。 上 下 文 定 向 的 效果 在 不 同类 别 的 内 容 上 有 很 大 的 区 
别 ， 但 是 这 种 方式 有 一 个 非常 大 的 好 处 ， 那 就 是 覆盖 率 比较 高 。 对 大 

告 展 示 ， 不 论 对 当前 访问 用 户 的 信息 了 解 有 和 多少， 往往 都 可 以 
根据 当前 浏览 的 页 面 推 测 用 户 的 即时 兴趣 ， 从 而 推送 相关 广告 。 由 于 
和 窗 盖 率 高 ， 上 下 文 定 同 也 是 ADN 中 首选 的 定 辣 方法 之 一 。 

(5) 行为 定向 (behaviorial targeting) 。 行 为 定向 是 展示 广告 中 非 
第 重要 的 一 种 定 同 方式 ， 其 框架 是 根据 用 户 的 历史 访问 行为 了 解 用 户 
兴趣 ， 从 而 投 送 相 关 广 告 。 行 为 定 同 之 所 以 重要 是 因为 它 提 供 了 一 种 
一 般 性 的 思路 ， 使 得 在 互联 网 上 收集 到 的 用 户 行 为 数据 可 以 产生 变现 
的 价值 。 因 此 ， 行为 定 同 的 框架 、 算 法 和 评价 指标 也 吏 葛 定 了 在 线 广 
告 数 据 驱 动 的 本 质 特征 ， 并 催生 了 相关 的 数据 加 工 和 交易 的 往生 业 
务 。 如 果 把 上 下 文 定向 看 成 是 根据 用 户 单 次 访问 行为 的 定向， 那么 行 
为 是 同 可 以 认为 是 一 系列 上 下 文 定 辣 的 融合 结果 。 因 此 ， 上 下 文 定向 
是 行为 是 同 的 基础 ， 而 且 对 各 种 类 型 的 上 下 文 定向 都 可 以 有 相对 应 的 
行为 定 同 方式 。 例 如 ， 地 域 定 同 是 根据 用 户 当前 访问 的 卫 来 确定 地 理 
区 域 ， 相 应 地 ， 也 可 以 根据 用 户 过 去 一 段 时 间 内 的 访问 中 最 频繁 的 地 
理 位 置 来 定 同 ， 这 种 方式 实际 上 得 到 的 更 搂 近 于 用 户 的 经 党 居住 地 ， 
业界 有 人 称 其 为 “where-on-earth” 定 癌 。 

(6) 精确 位 置 定 向 (hyper-local targeting) 。 在 移动 设备 上 投放 广 
告 时 ， 我 们 有 可 能 获得 非常 精准 的 地 理 位 置 。 例 如 ， 利 用 蜂 虹 信息 或 


者 GPS， 地 理 定位 的 精度 完全 可 以 达到 街区 的 粒度 ， 如 果 进 一 步 利 用 
Wi-Fi、 蔓 牙 等 设备 的 室内 定位 技术 ， 精 度 可 以 进一步 达到 数 米 级 。 这 
就 使 得 基于 精确 地 理 位 置 的 广告 成 为 可 能 ， 也 使 得 大 量 区 域 性 非常 强 
的 小 广告 主 (如 餐饮、 美容 等 ) 有 机 会 投放 精准 定位 的 广告 ， 这 已 经 
与 传统 意义 上 的 地 域 定 向 有 了 质 的 变化 ， 也 成 为 移动 广告 最 重要 的 机 
会 之 一 。 在 桌面 环境 中 ， 也 有 数据 提供 商 (如 Experian) 可 以 提供 根据 
IP 信 息 得 出 的 电脑 精确 定位 ， 在 这 些 数据 的 支持 下 ， 桌 面 在 线 广告 也 
可 以 进行 精确 位 置 定向 。 

(7) 重 定向 (retargeting) 。 这 是 一 种 最 简单 的 定制 化 标签 ， 其 原 
理 是 对 某 个 广告 主 过 去 一 段 时 间 的 访客 投放 广告 以 提升 效果 。 显 然 ， 
某 个 广告 主 的 访客 是 其 独 有 的 信息 ， 因 此 这 属于 定制 化 标签 。 重 定向 
被 公认 为 精准 程度 最 高 、 效 果 最 突出 的 定向 方式 ， 不 过 其 人 群 覆盖 量 
往往 较 小 。 这 是 因为 ， 重 定向 的 覆盖 投放 量 是 由 广告 主因 有 用 户 的 量 
和 与 媒体 的 重合 比例 共同 决定 的 。 关 于 重 定向 的 原理 ， 我 们 将 在 第 6 章 
中 具体 介绍 。 

(8) 新 客 推荐 定向 (look-alike targeting ) 。 由 于 重 定向 的 量 太 
小 ， 而 且 无 法 满足 广告 主 接触 潜在 用 户 的 需求 ， 因 此 不 能 仅仅 依靠 它 
来 投 送 广告 。 新 客 推荐 定向 的 思路 是 根据 广告 主 提供 的 种 子 访客 信 
息 ， 结 合 广告 平台 更 丰富 的 数据 ， 为 广告 主 找 到 行为 上 相似 的 潜在 客 


尸 。 这 一 方法 的 目的 十 布 望 在 同等 用 户 获 盖 比 率 的 情况 下 ， 达 到 比 一 
些 通用 的 兴趣 标签 更 好 的 效 末 ， 这 也 从 实质 上 体现 了 广告 主 数据 的 核 


心 价值 。 新 客 推荐 只 能 说 是 一 种 大 致 的 思路 ， 而 非 具体 的 方法 ， 其 基 
本 原理 我 们 也 将 在 第 6 章 中 介绍 。 
(9) 团购 (group-purchase) 。 这 并 不 是 一 种 定向 广告 技术 ， 却 与 
其 有 一 定 的 关联 ， 因 此 我 们 在 这 里 一 并 说 明 。 根 据 我 们 的 观点 ， 团 购 
也 是 一 种 变相 的 广告 形式 ， 这 种 广告 有 两 个 显著 的 特点 ， 首 先是 一 般 
都 针对 区 域 性 的 广告 主 ， 因 此 地 域 定 癌 或 者 直接 按照 地 域 分 类 组 织 是 
必要 的 功能 另外， 团购 主要 是 利用 价格 工具 ， 直 接 降 低 用 户 在 决策 
阶段 的 门 西 ， 使 得 价格 敏感 的 用 户 转化 效果 有 明显 的 提升 ， 当 然 ， 这 
手段 也 是 要 付出 成 本 的 。 用 类 似 的 手段 在 创意 上 直接 显示 打折 或 降 
价 的 促销 信息 也 被 其 他 的 电 商 类 广告 广泛 使 用 。 


在 一 些 反 映 用 户 兴 趣 类 的 受众 定 同 方法 (如 行为 是 同 、 上 下 文 定 
AS) 中 ， 我 们 需要 一 个 标签 体系 ， 将 每 个 用 户 映 射 到 其 中 的 一 个 或 
儿 个 标签 上 去 。 如 何 规 划 合 理 的 标签 体 系 对 广告 产品 的 运营 影响 非常 
大 ， 因 此 ， 这 有 是 产品 策略 中 特别 关键 的 一 环 。 一 般 来 说 ， 这 样 的 标签 
体系 有 两 种 组 织 方式 : 一 种 是 按照 某 个 分 类 法 (taxonomy) 制定 一 个 
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包含 关系 。 一 些 面 问 品牌 广告 的 受众 定 同 往往 采用 这 种 结构 化 较 强 的 
标签 体系 。 需 要 指出 ， 这 一 体系 中 的 标签 是 根据 需求 方 的 逻辑 而 制 
定 ， 茶 些 在 媒体 方 意义 很 大 的 分 类 标签 ， 如 军事 等 ， 由 于 没有 明确 的 
需求 对 应 ， 不 宜 出 现在 标签 体系 中 。 


另外 一 种 兴趣 标签 的 组 织 方 式 ， 是 根据 广告 主 的 具体 需求 设置 相 
应 的 标签 ， 所 有 的 标签 并 不 能 为 同一 个 分 类 体系 中 所 摘 述 ， 也 不 存在 
明确 的 父子 关系 。 这 种 半 结 构 化 或 非 结 构 化 的 标签 体系 往往 包 侣 一 些 
比较 精准 的 标签 的 集合 ， 因 而 主要 适用 于 多 种 目标 ， 特 别 是 效果 目标 
并 存 的 广告 主 的 精准 流量 选择 要 求 。 

选择 结构 化 兴趣 标签 体系 还 是 非 结构 化 的 兴趣 标签 体系 更 多 地 是 
商业 上 的 决策 ， 主 要 需要 考虑 下 面 两 种 情形 。 

(1) 当 标签 作为 广告 投放 的 直接 标的 时 (包括 CPM 广告 及 竞价 
广告 中 直接 可 被 广告 主 选 择 的 人 群 ) ， 这 些 标 签 既 要 能 够 为 广告 主 所 
理解 ， 又 要 方便 广告 主 的 选择 。 因 此 ， 在 这 种 情形 下 ， 结 构 化 的 层级 
标签 体系 往往 是 较 合理 的 产品 方案 ， 特 别 是 在 CPM 广 告 中 ， 标 签 的 划 
分 不 能 过 细 (原因 将 在 4.3.3 节 中 讨论 ; 。 这 种 结构 化 标签 体系 的 一 个 
典型 代表 十 表 4-1 所 示 的 Yahoo! 行为 定 癌 标签 体系 。 从 表 4-1 可 以 看 出 ， 
这 样 的 标 人 等 体系 非 芝 易于 理解 和 操作 ， 在 面 同 品牌 广告 主 售 卖 时 较为 
i FA o 


表 4-1 Yahoo! GD SAKE lA IMNSAA 


一 级 标 答 二 级 标 答 


Finance Bank Accounts, Credit Cards, Investiment, Insurance, Loans, Real Estate, ... 
Service Local, Wireless, Gas & Electric, ... 

Travel Europe, Americas, Air, Lodging, Rail, ... 

Tech Hardware, Software, Consumer, Mobile, ... 

Entertainment Games, Movies, Television, Gambling, ... 

Autos Beon/Mid/Luxury, Salon/Coupe/SUV. ... 

FMCG Personal care, ... 

Retail Apparel, Gifts, Home, ... 

Other Health, Parenting, Moving, ... 


(2) 当 标 签 仅 仅 是 投放 系统 需要 的 中 间 变 量 ， 作 为 CTR 预测 或 
者 其 他 模块 的 变量 输入 时 ， 那 么 结构 化 的 标签 体系 其 实 是 没有 必要 
的 ， 应 该 完全 按照 效果 驱动 的 方式 来 规划 或 挖掘 标签 ， 而 各 个 标签 之 
间 也 不 太 需 要 层次 关系 的 约束 。 这 样 的 标签 体系 ， 比 较 典 型 的 代表 是 
Bluekai 的 标签 体系 ， 由 于 其 面向 的 对 象 是 追求 效果 或 特殊 人 群 定位 的 
广告 主 ， 因 而 组 织 上 的 规整 性 也 就 让 位 于 效果 的 精准 性 了 。 关 于 
Bluekai 标 位 体 系 的 更 多 介绍 ， 参 见 6.6.5 条 。 

还 有 一 种 特殊 的 标签 形式 ， 即 关键 词 。 直 接 按照 搜索 或 浏览 内 容 
的 关键 词 划分 人 群 和 投放 广告 ， 往 往 可 以 达到 比较 精准 的 效果 。 关 键 
词 这 种 标签 体系 是 无 层级 关系 、 完 全 非 结 构 化 的 ， 它 虽然 很 容易 理 


解 ， 但 并 不 太 容 易 操 作 。 不 过 由 于 搜索 广告 在 整个 在 线 广告 中 的 重要 
地 位 ， 选 择 和 优化 投放 关键 词 这 样 一 项 专门 撤 术 已 经 发 展 得 相当 充 
分 ， 因 此 这 种 标签 也 是 实践 中 第 用 的 。 


4.3 展示 量 合约 


在 今天 ， 广 告 位 合约 的 方式 并 非 互 联网 广告 的 主流 ， 哪 但 是 以 品 
牌 为 目的 的 投放 。 实 际 上 ， 互 联网 主流 的 品牌 广告 投放 方式 是 按照 
CPM 结算 的 展示 量 合约 。 展 示 量 合约 指 的 是 约定 某 种 受众 条 件 下 的 展 
示 量 ， 然 后 按照 事先 约定 好 的 单位 展示 量 价 格 来 结算 。 这 种 合约 还 有 
一 个 名 称 ， 就 是 担保 式 投 送 妈 GD， 其 中 的 “担保 * 指 的 就 是 量 的 约定 。 
实际 执行 中 ， 在 未 能 完成 合约 中 的 投放 量 时 ， 可 能 要 求 媒 体 承担 一 定 
的 赔偿 。 

很 多 情况 下 ， 我 们 也 会 把 展示 量 合约 通俗 地 称 为 “CPM 广告 ”。 实 
际 上 ，CPM 广告 还 包括 另 一 种 按 CPM 结算 ， 但 是 不 约定 展示 量 的 售 
卖方 式 ， 如 广告 交易 市 场 中 的 广告 售卖 。 而 那样 的 非 傈 量 CPM 实 际 上 
属于 竞价 广告 而 非 合 约 广告 ， 其 商业 逻辑 老 别 较 大 。 因 此 ， 这 里 我 们 
采用 展示 量 合约 的 说 法 。 

我 们 从 供给 方 和 需求 方 两 方面 来 看 这 种 售卖 方式 出 现 的 合理 性 。 
媒体 从 按 固定 广告 位 售卖 变 为 按 CPM 售 卖 ， 初 囊 是 为 了 在 受众 定向 的 
基础 上 提高 单位 流量 的 变现 能 力 ， 可 是 面向 的 仍然 是 原来 的 品牌 广告 
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照 人 群 定 回 的 方式 采 买 ， 流 量 有 诸多 不 确定 的 因素 。 因 此 ， 需 求 方 希 
望 在 合约 中 加 入 对 量 的 保证 ， 才 能 放心 地 采 买 。 

展示 量 合约 虽然 以 人 群 为 显 式 标的 进行 售卖 ， 但 是 请 注意 一 个 非 
常 重 要 的 事实 : 

展示 量 合约 并 没有 摆脱 广告 位 这 一 标的 物 。 

这 是 由 于 在 CPM 这 种 结算 方式 下 ， 无 法 将 多 个 差别 很 大 的 广告 位 
打包 成 同一 售卖 标的 ， 因 为 这 些 广告 位 的 曝光 有 效 性 可 能 差别 巨大 ， 
合理 的 CPM 也 相应 地 大 幅 变 动 。 实 践 中 的 展示 量 合约 往往 十 以 一 些 曝 
光量 很 大 的 广告 位 为 基础 ， 再 切 分 人 群 售卖 ， 最 典型 的 例子 是 视频 网 
站 的 贴 片 位 置 或 着 门户 网 站 首页 的 广告 位 。 对 实时 葛 价 有 所 了 解 的 读 
者 可 能 有 疑问 ， 厂 告 交 易 市 场 里 的 广告 位 五 伦 八 |]， 为 什么 可 以 按照 
CPM 结算 呢 ? 这 个 问题 我 们 在 后 面谈 到 实际 竞价 的 产品 逻辑 时 再 进行 
讨论 。 

虽然 从 交易 模式 上 来 看 ， 展 示 量 合约 仍然 是 比较 传统 的 交易 模 
A, 但 是 从 技术 层面 上 看 ， 这 种 模式 的 出 现实 际 上 已 经 反映 了 互联 网 

告 计算 驱动 的 本 质 : 分 析 得 到 用 户 和 上 下 文 的 属性 ， 并 由 服务 端 根 
据 这 些 属性 及 广告 库 情 况 动态 决定 广告 候选 。 这 一 商业 模式 的 出 现 ， 
需要 有 一 系列 技术 手段 的 文 持 ， 这 些 手段 主要 包括 受众 定向 、 流 量 预 
测 和 担保 式 投 放 等 。 其 中 受众 定 同 是 在 线 广 告 非常 重要 的 核心 问题 ， 
被 各 种 广告 产品 广泛 使 用 ， 我 们 已 经 在 上 一 市 进行 了 介绍 。 下 面 讨论 
一 下 流量 预测 和 在 线 分 配 的 产品 策略 问题 。 


4.3.1 } | 


展示 量 合 约 售 卖 的 是 茶 特 定 人 群 上 的 广告 曝光 次 数 ， 而 人 群 不 同 
于 确定 的 广告 位 ， 因 此 必须 在 合约 中 约定 投放 的 量 。 于 是 ， 在 产品 集 
略 上 就 产生 了 流量 预测 (traffic forecasting) 这 一 问题 。 流 量 预测 在 广 
fay urb Bd R= TERA ° 

(1) 售 前 指导 。 在 展示 量 合约 广告 中 ， 由 于 要 约定 曝光 尽数 ， 事 

先 尽 可 能 准确 地 预测 各 人 群 标签 的 流量 变 得 非 第 天 键 。 如 末 流 量 疗 重 
低估 ， 会 出 现货 源 售卖 量 不 足 的 情形 ;， 如 采 流 量 严 重 高 估 ， 则 会 出 现 
一 部 分 合约 不 能 达成 的 状况 。 这 都 会 直接 影响 整个 系统 的 收入 。 
(2) 在 线 流量 分 配 。 同 样 是 在 展示 量 合约 广告 中 ， 由 于 合约 之 间 
在 人 群 选择 上 会 有 很 多 交集 ， 当 一 次 曝光 同时 满足 两 个 以 上 合约 的 要 
求 时 ， 怎 样 决策 将 它 分 配给 哪个 合约 以 达到 整体 满足 所 有 合约 的 目 
的 ， 这 是 下 文 将 要 讨论 的 在 线 分 配 问 题 。 各 种 在 线 分 配 算 法 部 要 依赖 
流量 预 佑 的 结果 ， 以 达到 高 效 和 准确 的 目标 。 

(3) 出 价 指导 。 在 竞价 广告 中 ， 由 于 没有 了 量 的 保证 ， 广 告 主 往 
往 需 要 根据 自己 预计 的 出 价 先 了 解 一 下 可 能 获得 多 少 流量 ， 以 判断 目 
己 的 出 价 是 否 合 理 。 与 前 面 的 应 用 不 太一 样 ， 这 里 的 流量 预测 还 多 了 
出 价 这 样 一 个 因 和 又。 

综 上 所 述 ， 广 告 里 一 般 的 流量 预测 问题 ， 可 以 描述 成 对 流量 { (u, 
b) 这 个 函数 的 估计 ， 其 中 第 一 个 参数 u 是 给 定 的 人 群 标签 或 人 群 标签 
的 组 合 ， 第 二 个 参数 b 十 出 价 。 在 展示 量 合约 中 ， 由 于 没有 苋 价 ， 可 
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以 看 成 是 上 述 问 题 在 b 9 o 情 形 下 的 特例 。 与 流量 预测 有 关 的 技术 将 在 
第 11 章 中 介绍 o 


4.3.2 1 乡 


流量 预测 对 于 展示 量 合约 非常 重要 ， 不 过 在 本 质 上 还 是 被 动 地 统 
计 流 量 情 况 。 在 有 些 情形 下 ， 我 们 可 以 主动 地 影响 流量 ， 以 利于 合约 
的 达成 。 这 一 产品 策略 问题 称 为 流量 塑 形 (traffic shaping) 。 

Jit EIER LASS Et ee REIP ERNE AT 
告 。 我 们 知道 ， 门 户 网 站 各 子 频 道 的 流量 严重 依赖 于 首页 关键 位 置 链 
接 的 导 流 。 假 如 在 车 展期 间 ， 汽 车 频道 上 的 展示 广告 需求 旺盛 ， 那 么 
首页 上 的 链接 应 该 更 多 地 给 汽车 频道 导 流 以 利于 收入 的 增加 。 这 样 的 
想法 相当 直接 ， 在 实践 中 也 被 广泛 使 用 。 不 过 ， 从 商业 产品 的 要 求 来 
看 ， 要 系统 化 、 高 效率 地 达到 流量 塑 形 的 目标 ， 需 要 用 户 产 品 与 广告 
产品 的 需求 情况 打通 ， 然 后 按照 一 定 的 准则 ， 在 不 伤害 用 户 体验 的 情 
下 ， 尽 可 能 提高 商业 变现 的 效率 。 本 书 不 对 这 方面 具体 的 产品 技术 
进行 详细 的 介绍 。 

值得 注意 的 是 ， 流 量 塑 形 问题 已 经 涉及 用 户 产 品 与 商业 产品 的 内 
在 联系 ， 这 与 后 面 讨论 的 原生 广告 有 千 丝 万 缕 的 联系 ， 我 们 将 在 第 7 对 
中 详细 讨论 。 
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展示 量 合约 这 种 保 量 合约 都 面临 一 个 问题 : 各 个 合约 要 求 的 人 群 
很 可 能 大 量 交 县 ， 如 何 设计 分 配 策 略 ， 使 得 各 个 合约 都 尽 可 能 被 满 
足 。 为 了 描述 这 一 策略 问题 ， 我 们 将 其 简化 为 一 个 二 部 图 (bipartite 
graph) 匹配 的 问题 。 二 部 图 的 一 方 是 表示 广告 库存 的 供给 节点 ， 每 个 
节点 代表 的 是 所 有 人 和 群 标签 都 相同 的 广告 流量 集合 ;二 部 图 的 另 一 方 
征 表 示 广 告 合 约 的 需求 节点 ， 每 个 万 点 代表 的 是 一 个 广告 合约 的 人 群 


标签 条 件 。 


(gender- 3 (geo- 东 ， {age=2, 
200 mille} 200 mille} 1,000 mille} 


(genderz {gender 办 i r (geoz]" ik, (geo dU, i 
age=2, age=2, {age=2, 
100 mille} 500 mille} 300 mille} 


ge0= Hi, 
age=2, 
400 mille} 100 mille} 


age=2, 


400 mille} 


图 4-3 在 线 分 配 中 的 二 部 图 匹配 问题 示意 
供给 节点 、 需 求 广 点 和 在 线 分配 二 部 图 的 示例 见 图 4-3。 在 图 4-3 
+, RAW 6 个 节点 为 供给 节点 ， 而 上 面 的 三 个 节点 为 需求 节点 。 如 果 
某 供 给 节点 的 受众 标签 能 够 满足 某 需 求 节 点 的 要 求 ， 我 们 就 在 相应 的 
两 个 万 点 间 建 立 一 条 连接 边 。 供 给 节点 中 的 各 个 条 件 之 间 都 是 “与 ”的 
关系 ， 因 此 各 个 供给 巴 点 之 间 的 流量 是 无 重合 的 ， 需 求 节 点 中 的 各 个 
条 件 也 是 “与 ?的 关系 。 《如果 广告 投放 中 设置 的 是 “或 "的 关系 ， 则 可 以 


转化 为 多 个 需求 节点 。) 显然 ， 需 求 世 点 之 间 可 能 会 抢 寺 同 一 个 供给 
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如 果 系 统 允 许 在 一 天 结束 后 才 分 配 今天 的 流量 ,我 们 可 以 很 容易 
地 设计 策略 : 根据 每 个 供给 节点 的 流量 和 各 和 需求 节点 的 约束 ， 解 上 面 
的 分 配 问题 ， 得 到 每 个 供给 节点 应 该 分 配 多 少 比 例 的 流量 给 某 个 需求 
点 。 不 过 在 实际 情况 中 ， 我 们 不 可 能 等 到 流量 情况 全 部 已 知 后 再 做 
决策 ， 而 是 需要 在 每 一 次 曝光 时 实时 做 出 分 配 决 策 ， 因 此 ， 这 一 策略 
问题 称 为 在 线 分 配 。 在 线 分 配 需要 根据 历史 数据 和 某 种 策略 离线 得 到 
一 个 分 配方 案 ， 线 上 则 照 此 方案 执行 。 

如 宁可 选 的 标签 数量 很 少 ， 比 如 只 开放 年 龄 和 性 别 ， 那 么 供给 十 
扩 的 数量 就 不 多 ;如 有 果 合 约 的 数量 也 不 太 多 ， 那 么 需求 节点 的 数量 也 
不 多 。 在 这 种 情形 下 ， 我 们 仍然 可 以 借鉴 上 面 的 离线 方法 进行 在 线 分 
BO. 根据 流量 预测 的 结 来 得 到 代 准 实际 流量 ， 表 解 上 面 的 分 配 问 题 ， 
得 到 每 个 供给 节点 应 该 分 配 多 少 比 例 的 流量 给 某 个 需求 节点 ， 而 线 上 
的 系统 则 根据 解 得 的 分 配 比 例 来 执行 。 不 过 ， 实 际 的 在 线 分 配 技 术 比 
这 个 要 复杂 很 多 ， 我 们 将 在 第 11 章 中 具体 讨论 。 

随 着 标签 数量 的 增加 ， 供 给 巴 点 的 数量 会 以 指数 速度 上 升 ， 而 每 
一 个 供给 让 操 的 流量 当然 也 整 迅 速 收 缠 。 当 市 点 的 流量 过 小 时 ， 对 其 
进行 相对 准确 的 预测 就 变 得 相当 困难 ， 这 时 上 面 所 说 的 方案 就 会 变 得 
完全 不 可 行 。 因 此 ， 展 示 量 合约 这 类 广告 产品 在 人 群 标签 非常 丰富 和 
精准 时 是 无 法 有 效 地 运作 的 ， 而 这 正 是 竞价 广告 产品 的 原动力 之 一 。 


4.3.4 产品 案例 


广告 位 合约 产品 多 见于 中 国门 户 网 站 站 页 等 曝光 资源 ， 由 于 其 逻 
辑 较 为 简单 ， 我 们 不 再 举例 说 明 。 展 示 量 合约 有 两 种 典型 的 产品 场 
景 : 一 十 用 于 视频 广告 资源 ， 二 是 北美 主要 1] 户 网 站 的 品牌 性 广告 
位 。 我 们 简要 介绍 Yahoo! GD 市 场 ， 供 大 家 了 解 。 


Yahool GD 市 场 
YAHOO! 


ADVERTISING 
Yahoo! 的 展示 广告 分 为 两 个 产品 体系 : GD 和 非 担 保 式 投 送 


(Non-Guaranteed Delivery, NGD) 。 前 者 是 面向 品牌 的 合约 广告 ， 而 
后 者 包括 了 广告 网 络 、 程 序 化 交易 等 多 种 产品 。 应 该 说 ， 从 是 否 满足 
高 价值 品牌 广告 为 视角 来 划分 广告 产品 ， 这 是 一 种 相对 陈旧 的 视角 ， 
这 也 导致 了 Yahool 在 程序 化 交易 方面 的 产品 进展 一 直 不 快 。 

我 们 重点 来 看 一 下 Yahoo! GD。 在 这 个 市 场 中 ，Yahoo! 为 品牌 广 
告 主 提 供 合 约 式 的 采 买 接口 ， 并 且 提 供 了 基础 的 定向 功能 来 划分 人 
群 。 在 Yahoo! GD 中 的 人 群 标 签 包括 地 域 、 人 口 属性 (主要 是 年 龄 和 性 
别 ) 以 及 行为 定向 标签 。 其 行为 定向 标签 分 为 多 个 层次 ， 其 中 前 两 层 
的 一 部 分 标签 如 表 1-1 所 示 。 

在 这 个 行为 定向 标签 体系 中 ， 一 共有 数 千 个 标签 ， 不 过 实际 售卖 
中 ,产生 过 销售 合约 的 不 过 一 百 多 个 。 这 非常 典型 地 反映 了 合约 广告 
的 尴 罚 ， 大 量 精准 的 标签 在 合约 量 的 束缚 下 基本 无 法 售卖 。 因 此 ， 大 


家 要 特别 注意 ， 一 个 广告 产品 声称 目 己 的 标签 体系 多 么 复杂 ， 有 多 少 
标签 种 类 ， 实 际 上 没有 太 大 的 实际 意义 ， 这 些 标签 的 人 群 规模 会 更 有 
说 服 力 。 

应 该 说 ，Yahoo! GD 市 场 是 显示 量 合约 广告 最 早产 生 也 比较 完备 的 
产品 体系 之 一 。 在 实时 竞价 产生 之 前 ，Yahoo! GD 市 场 提供 的 简单 标签 
已 经 能 满足 大 部 分 需求 了 。 有 关 展 示 量 合约 广告 的 一 些 关 键 产 品 策略 
和 技术 方案 都 来 自 于 这 一 产品 ， 因 此 值得 大 家 深入 了 解 。 并 且 ， 在 今 
天 视频 广告 快速 发 展 的 环境 下 ， 这 一 市 场 中 的 方法 论 和 解决 方案 很 多 
情形 下 都 可 以 直接 被 采用 。 


4.4 延伸 思考 


1. 除 了 广告 位 合约 和 展示 量 合约 ， 是 否 可 以 设计 一 种 点 击 量 合约 的 
交易 模式 ， 它 会 遇 到 什么 样 的 挑战 ? 

2. 在 展示 量 合约 中 售卖 的 受众 往往 有 监测 上 的 要 求 ， 那 么 对 于 行为 
定 问 这 样 的 不 易 监 测 的 用 户 标 签 而 言 ， 有 什么 产品 思路 提高 其 市 场 接 
受 程度 ? 


本 书 由 l'ePUBw. COM | 整理 ，ePUBw.COM 提 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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随 看 搜索 业务 变现 的 要 求 ， 以 及 精准 受众 定 同 撤 术 的 发 展 ， 在 搜 
索 广 告 和 展示 广告 中 都 产生 了 竞价 这 种 者 的 交易 模式 。 对 比 前 面 的 合 
约 广 告 可 知 ， 竞 价 交 易 模 式 的 本 质 是 将 量 的 约束 从 交易 过 程 中 去 除 ， 
仅仅 采用 “ 价 高 者 得 ”的 简单 决策 方案 来 投放 每 一 次 广告 。 有 竞价 顺应 了 
定 癌 广告 癌 精细 化 发 展 的 趋势 要 求 ， 也 为 大 量 无 法 用 合约 售卖 的 剩余 
流量 找到 了 可 能 的 变现 渠道 ， 使 得 大 量 中 小 广告 主 参 与 在 线 广告 的 可 
能 性 和 积极 性 大 大 增强 ， 也 使 得 在 线 广告 的 商业 环境 与 传统 广告 产生 
了 本 质 区 别 。 

本 章 将 集中 介绍 竞价 类 广告 产品 ， 特 别 是 搜索 广告 和 广告 网 络 ， 
并 重点 讨论 其 中 关键 的 产品 策略 。 这 部 分 产品 在 整体 产品 六 进 过 程 的 
中 的 位 置 如 图 5-1 所 示 。 但 是 ， 实 时 竞价 相关 的 产品 由 于 在 数据 利用 和 
商业 逻辑 上 与 广告 网 络 区 别 较 大 ， 我 们 将 在 第 6 章 中 进行 介绍 。 


信息 流 广告 


植 和 式 原生 广告 


程序 化 交易 广告 
图 5-1 竞价 广告 产品 

搜索 广告 在 竞价 广告 乃至 整个 在 线 广告 中 都 有 着 旗舰 产品 的 地 
位 。 除 了 它 的 变现 能 力 和 市 场 规模 方面 的 优势 ， 更 重要 的 是 ， 一 些 在 
计算 广告 中 非常 核心 的 产品 策略 和 技术 方案 都 来 源 于 搜索 广告 。 因 
此 ， 对 搜索 广告 的 深入 理解 对 于 理 清 整个 竞价 广告 市 场 非常 关键 。 我 
们 在 本 章 中 对 搜索 广告 的 讨论 将 着 重 介绍 其 对 整个 广告 市 场 的 引领 
点 ， 而 其 中 最 关键 的 一 项 ， 束 是 苋 价 广告 产品 的 产生 和 相应 的 机 制 设 
计 理 论 。 如 何 设计 合理 的 市 场 规则 和 定价 策略 ， 使 得 竞价 市 场 的 竞争 
更 加 合理 充分 ， 对 于 整体 收益 有 相当 大 的 影响 。 这 方面 有 关 宏 观 市 场 
上 的 讨论 在 竞价 时 代 显 得 非常 重要 ， 也 成 为 在 线 广 告 领 域 得 到 深入 人 研 


完 的 问题 ， 我 们 在 本 半 中 会 用 单独 一 市 来 讨论 其 问题 框架 和 一 些 实用 
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FESO HI Die ae RB. Hon] FREE T um 
批量 采购 各 种 媒体 剩余 流量 ， 然 后 主要 按照 点 击 付费 的 方式 售卖 给 广 
告 主 的 产品 形式 。 这 种 产品 形态 的 产生 对 于 提高 整个 展示 广告 市 场 的 
流动 性 发 挥 了 很 大 作用 。 广 告 网 络 中 葛 价 的 标的 物 有 两 种 : 一 是 上 下 
文 页 面 中 的 关键 词 ， 这 是 直接 从 搜索 广告 衍生 而 来 的 ， 二 是 根据 用 户 
行为 加 工 的 兴趣 标签 ， 这 是 从 展示 广告 的 定 同 逻 辑 发 展 而 来 的 。 广 告 
网 络 的 竞价 环境 与 搜索 广告 有 所 不 同 ， 各 种 上 下 文 或 用 户 标签 的 有 效 
性 差别 巨大 ， 另 外 各 种 广告 位 的 差别 也 会 很 大 。 因 此 ， 除 了 完全 依照 
eCPM 估 计 排 序 广告 外 ， 冷 司 动 问题 以 及 各 种 复杂 环境 下 点 击 率 的 归 一 
化 非 币 重要 。 这 些 实际 上 使 得 广告 网 络 的 效 采 优化 比 搜索 广告 更 有 挑 
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中 关键 的 变化 有 两 点 : ee BT Te AR SK BB CTE [8] AREIS a 
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平台 。 在 媒体 采 买 平台 里 ， 在 量 的 约束 下 完成 ROI 的 优化 的 问题 依然 
存在 ， 并 且 变 得 比 在 线 分 配 问 题 更 加 困难 ， 这 也 成 为 高 端的 采 买 平台 
提供 的 服务 之 一 。 当 然 ， 搜 索 广 告 的 媒体 采 美 和 ROI 优化 同样 十 分 重 


要 ， 这 项 专门 的 服务 称 为 搜索 引 警 营销 (Search Engine Marketing , 


SEM) 。 


提起 竞价 广告 ， 不 能 不 先 从 搜索 广告 说 起 。 搜 索 广 告 一 直 是 整个 
在 线 广告 市 场 中 市 场 份额 最 大 的 类 型 ， 更 重要 的 是 ， 像 竞价 、 类 搜索 
的 广告 投放 架构 都 是 从 搜索 广告 发 展 起 来 的 。 因 此 ， 我 们 非常 有 必要 
深入 地 了 解 搜 索 广 告 ， 并 从 这 里 入 手 了 解 整 个 竞价 广告 市 场 。 

对 搜索 广告 这 个 产品 ， 不 同 搜索 引擎 提供 商 有 不 同 的 称呼 ， 如 paid 
search ` search ad ^ sponsored search 等 。 这 些 词汇 概念 上 非常 相似 ， 但 
也 略 有 差别 ， 个 人 比较 倾向 于 采用 “sponsored search” (付费 搜索 ) 这 样 
的 说 法 ， 而 “paid search”( 付 费 搜 索 有 时 会 让 读者 对 是 谁 付 费 产 生 误 
解 。 至 于 “search ad” (搜索 广告 ) 实际 上 还 应 包括 搜索 引擎 中 的 其 他 广 
告 形 式 。 有 关 搜 索 广告 更 多 的 背景 和 概念 ， 大 家 可 以 进一步 参考 参考 
文献 42，53]。 

从 市 场 规模 来 看 ， 搜 索 广 告 占 整个 在 线 广告 市 场 的 一 半 以 上 。 表 5- 
1 列 出 了 中 国 市 场 综合 搜索 引擎 广告 和 垂直 搜索 引擎 广告 (如 淘宝 直通 
车 ) 等 的 收入 占 比 数据 %。 

表 5-1 中 国 搜索 广告 市 场 规模 


ama nq 
在 线 广告 整体 规模 ( 亿 元 ) | 231 | 1928 | 256.6 | 3062 381.5 | 4022 
搜索 引擎 广告 占 比 (%) | 325 | 338 | 318 fafafa 344 | 39 | 34 
SERE GA (%) 271 | 262 | M6 


搜索 广告 是 比较 典型 的 竞价 广告 产品 ， 其 特点 十 广告 主 吏 菜 标的 
物 (在 这 里 是 关键 词 ) 的 广告 展示 机 会 展开 拍卖 式 的 竞争 ， 并 根据 竞 
争 结果 依次 占据 该 广告 展示 的 否 干 位 置 。 这 与 第 4 章 中 的 展示 量 合约 是 
截然 不 同 的 ， 首先， 量 的 保证 不 复 存 在 ， 广 告 主 需 要 自行 调整 效 采 与 
量 的 平衡 ， 其 次 ， 价 格 的 约定 也 被 去 挥 ， 每 个 广告 主 痢 可 以 随时 调整 
各 关键 词 上 的 出 价 。 下 面 介绍 搜索 广告 的 具体 产品 形式 。 


5.1.1 告 产 品 形 太 


搜索 广告 是 以 上 下 文 查询 词 为 粒度 进行 受众 定向 ， 并 按照 竞价 方 
式 售 卖 和 CPC 结 算 的 广告 产品 。 通 音 ， 搜 索 广告 展示 在 搜索 结 朱 页 ， 
如 图 5-2 所 示 。 搜 索 广 告 创意 的 展示 区 域 一 般 来 说 分 为 北 (north) ^ ZR 
(east) ^ Bj (south) 三 个 部 分 。 北 区 和 东区 的 所 有 位 置 构成 同一 次 关 
键 词 哲 卖 的 位 置 集合 ， 竞 价 时 位 置 的 排序 为 {north,，north,，…，east,， 
east,，…}， 这 基本 上 是 根据 各 个 位 置 点 击 率 的 高 低 排 列 的 。 同 时 ， 并 
不 需要 在 这 些 位 置 上 全 出 广告 ， 这 与 横幅 广告 有 显著 的 区 别 。 南 区 的 
广告 ， 不 同 的 搜索 引擎 有 不 同 的 产品 处 理 方法 ， 有 的 直接 照 气 北 区 广 
告 ， 有 的 则 直接 照 氢 东区 的 前 儿 条 。 


搜索 广告 最 基本 的 形式 是 与 目 然 检 索 结 果 一 致 的 文字 链 ， 一 般 会 
加 底 色 和 角 上 的 “推广 ”推广 链接 ”Ads” 等 字样 ， 以 区 别 于 自然 结果 ， 
这 样 做 的 目的 是 让 那些 对 广告 没有 兴趣 的 人 尽量 少 减 少 误 点 击 ， 从 而 
降低 广告 主 的 无 效 消费 和 提升 用 户 体 给。 

搜索 广告 竞价 的 标的 物 是 竞价 关键 词 (bid term) ， 用 户 输入 的 查 
询 (query) 通过 与 关键 词 相 匹配 来 确定 是 否 可 以 触发 该 条 广告 。 匹 配 
的 方式 及 可 以 采取 简单 的 精确 匹配 ， 也 可 以 有 更 多 的 扩展 方式 ， 查 询 
扩展 也 是 搜索 广告 的 一 项 比较 关键 的 产品 策略 。 

本 章 中 讨论 的 搜索 广告 主要 以 通用 搜索 引 敬 为 蓝本 。 实 际 上 ,很 
多 垂直 类 搜索 ， 符 别 站 电子 商务 类 搜索 也 有 很 强 的 广告 要 现 能 力 ， 但 
产品 形态 可 能 会 有 所 不 同 ， 大 家 可 以 有 选择 性 地 与 下 面 讨 论 的 问题 来 
对 照 。 

在 互联 网 广告 的 整个 产品 谱系 当中 ， 搜 索 广 告 有 着 特殊 重要 的 地 
位 ， 具 有 以 下 鲜明 的 产品 和 技术 特点 。 

(1) 搜索 广告 的 变现 能 力 ， 即 eCPM 远 远 高 于 一 般 的 展示 广告 ， 
其 市 场 重要 程度 也 就 得 以 彰显 。 因 此 ， 与 搜索 广告 的 一 些 独特 问题 和 
算法 的 研究 ， 受 到 了 高 度 的 重视 。 而 搜索 广告 高 变现 能 力 最 关键 的 产 
品 原 因 就 是 用 户主 动 输入 的 查询 直接 反映 了 用 户 的 意图 。 

(2) 搜索 广告 的 受众 定向 标签 ， 即 是 上 下 文 的 搜索 查询 。 由 于 搜 
索 词 非常 强 地 表征 着 用 户 的 意图 ， 搜 索 广 告 可 以 进行 非常 精准 的 定 
回 。 相 对 这 样 的 上 下 文 信息 ， 根 据 用 户 历史 行为 得 到 的 兴趣 标签 的 重 


要 性 大 打折 扣 ， 这 一 方面 是 因为 其 信号 远 不 如 搜索 词 强烈 ， 另 一 方面 
是 因为 用 户 这 样 明确 意 图 的 任务 是 决 不 能 被 打 断 的 〈 参 见 第 2 章 广告 有 
效 性 原理 部 分 ) 。 因 此 ， 搜 索 广 告 里 的 eCPM 由 一 般 情形 下 的 r (a, u, 
c) 退化 成 Jr (a, c) 。 
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图 5-2 搜索 广告 竞价 位 置 示 例 

(3) 搜索 广告 的 展示 形式 与 自然 结果 的 展示 形式 非常 接近 ， 人 往往 
仅仅 在 底 色 和 文字 链接 中 有 不 太 引 人 注目 的 提示 。 这 样 的 产品 设计 使 
得 它 有 原生 广告 的 意味 ， 也 进一步 提高 了 广告 效果 。 但 另 一 方面 ， 这 
样 的 广告 结果 对 相关 性 的 要 求 远 远 超过 展示 广告 ， 因 此 在 根据 查询 匹 
配 广告 时 需要 非常 精细 的 策略 和 技术 。 

(4) 从 搜索 广告 发 展 起 来 的 竞价 交易 模式 已 经 逐渐 发 展 成 为 互联 
网 广告 最 主流 的 交易 模式 。 这 一 模式 从 根本 上 改变 了 广告 的 运营 方 
法 ， 并 为 其 效果 的 快速 提高 释放 出 巨大 的 生产 力 。 
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价 的 展示 广告 网 络 也 有 一 定 的 差别 。 从 产品 设计 的 角度 看 ， 搜 索 广告 
有 以 下 三 方面 的 探索 趋势 。 

(1) 丰富 文字 链 创意 的 展示 形式 让 其 更 富 表现 力 以 提高 点 击 率 。 

(2) 利用 东区 对 相关 性 要 求 稍 低 的 特点 设计 一 些 拓展 广告 产品 。 

(3) 优化 广告 与 自然 结果 的 关系 在 保证 相关 性 和 广告 效果 的 前 提 
下 提高 收入 。 

图 5-3 中 给 出 了 搜索 广告 产品 新 形式 的 一 些 示 例 ， 下 面 分 别 具 体 说 
明 。 
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图 5-3 搜索 广告 新 产品 示例 
1. 超 越 文字 链 的 创意 
显然 ， 蓝 色 超 链接 肯定 不 是 搜索 广告 的 产品 终点 。 随 着 搜索 绪 
本 身 癌 着 展示 更 丰富 、 获 取 内 容 更 直接 、 行 业 性 不 断 加 强 的 方向 发 
展 ， 搜 索 广告 也 在 探索 一 些 能 传递 更 多 价值 的 展现 形式 ， 以 同时 提升 
用 户 体验 和 变现 效率 。 这 方面 的 探索 有 两 个 重点 方向 。 


(1) 在 通用 广告 链接 上 增加 更 多 有 表现 力 的 信息 点 。 如 图 5-3 中 第 
2 部 分 所 示 ， 除 了 标题 、 摘 要 这 些 文字 链 广 告 创意 的 标准 内 容 以 外 ， 还 
增加 了 广告 主 的 Logo、 主 要 内 容 链 接 、 联 系 电话 等 内 容 。 实 践 证 明 ， 
这 些 都 会 提高 广告 的 直接 效果 和 品牌 价值 。 更 重要 的 是 ， 这 样 的 发 展 
方向 与 行业 基本 无 关 ， 可 以 规模 化 复制 ， 因 此 在 搜索 广告 中 已 经 被 广 
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(2) 直接 展示 结构 化 的 广告 内 容 摘要 ， 其 至 提供 一 些 可 直接 访问 
的 功能 ， 这 样 可 以 减少 用 户 跳 转 的 成 本 ， 提 高 推广 效率 。 如 图 5-3 中 人 第 1 
部 分 所 示 ， 广 告 产品 直接 展示 了 旅游 网 站 的 一 些 主要 内 容 链接 ， 并 直 
接 在 结果 中 提供 了 订 机 票 和 酒店 的 快捷 入 口 。 这 样 的 商业 化 结果 往往 
直接 来 源 于 搜索 的 直接 到 达 产 品 ， 如 百度 的 阿拉 丁 、360 的 OneBox 
等 ， 但 由 于 结果 是 付费 的 ， 因 此 也 应 该 归 为 广告 或 商业 化 内 容 。 需 要 
指出 ， 这 种 内 容 为 了 照顾 用 户 体验 的 一 致 性 ， 往 往 不 能 完全 采用 搜索 
广告 的 竞价 方式 来 运营 ， 一 般 的 运营 方式 是 就 某 个 行业 进行 阶段 性 的 
t F EUT e 

上 面 的 这 种 发 展 方向 为 提升 搜索 广告 效果 提供 了 新 的 空间 ， 然 而 
尚未 成 为 搜索 广告 的 主流 。 原 因 在 于 这 种 模式 需要 分 行业 设计 产品 和 
运营 方案 ， 规 模 化 程度 有 限 ; 另外 如 果 直 接 对 接 单 品 ， 会 产生 与 个 性 
化 重 定向 一 样 的 商品 库 对 接 等 复杂 的 工程 问题 ， 这 部 分 我 们 在 后 面 介 
绍 DSP 时 再 进行 讨论 。 

2. 弱 相关 广告 形式 


搜索 引擎 右 侧 的 产品 原则 跟 左 侧 相 比 有 一 点 点 区 别 ， 那 就 是 在 合 
理 和 可 解释 的 范围 内 可 以 增加 一 点 相关 性 要 求 稍 低 的 泛 化 内 容 ， 因 此 
为 这 部 分 的 广告 产品 设计 也 提供 了 新 的 空间 。 我 们 用 两 个 例子 来 介绍 
这 方面 的 探索 。 

(1) 图 5-3 中 的 第 3 部 分 是 一 种 在 搜索 广告 中 常见 的 带 有 一 定 品牌 
意味 的 广告 形式 。 它 是 以 广告 主 对 应 的 一 组 导航 类 搜索 关键 词 ， 在 用 
户 搜索 这 些 词 时 展示 该 广告 主 的 品牌 宣传 性 创意 。 这 样 的 产品 可 以 提 
升 广告 主 用 户 对 品牌 的 认 知 程度 和 后 续 秋 性 。 

(2) 图 5-3 中 的 第 4 部 分 是 一 些 搜 索引 擎 提供 的 同类 推荐 功能 ， 在 
此 例 中 ， 为 相关 的 旅游 类 网 站 。 显 然 ， 这 部 分 的 列表 和 排序 可 以 按照 
竞价 广告 的 逻辑 来 运营 。 通 过 这 一 广告 产品 可 以 为 搜索 引擎 提供 一 些 
离 决 策 稍 远 、 以 接触 潜在 用 户 为 目的 的 广告 。 如 图 中 的 例子 ， 携 程 的 
用 户 可 能 不 一 定 用 过 同城 网 ， 但 是 在 此 处 看 到 以 后 或 许 会 尝试 并 对 其 
发 生 兴趣 。 当 然 ， 这 样 的 产品 绝对 不 能 在 搜索 左 侧 的 结果 中 展示 ， 因 
为 那样 会 引起 用 户 对 结果 相关 性 的 质疑 。 

3. 原 生化 探索 

搜索 广告 从 一 开始 就 具有 原生 广告 的 特点 : 它 的 商业 化 结果 与 上 自 
然 结果 一 样 ， 由 用 户 的 主动 意图 触发 ， 并 且 展 示 形 式 上 与 自然 结果 相 
差 不 大 。 实 际 上 ， 有 相当 比例 的 用 户 是 完全 无 法 区 分 目 然 结果 和 广告 
结果 的 。 因 此 ， 探 索 搜 索 广 告 与 内 容 的 自然 结合 ， 以 越 来 越 “原生 ”的 
方式 投放 广告 ， 也 是 产品 的 重要 方向 。 


与 其 他 搜索 引擎 不 同 ， 百 度 的 搜索 广告 从 一 开始 束 是 混 排 在 自然 
结 末 中 的 竞价 排名 方式 ， 而 类 似 于 图 5-2 的 标准 形式 是 后 来 才 逐 渐 发 展 
起 来 的 ， 但 这 种 混 排 的 形式 实际 上 一 直 存 在 于 百度 的 广告 产品 中 ， 并 
且 对 营 收 仍然 发 挥 着 重要 的 作用 。 这 种 混 排 虽然 春 贬 不 一 ， 而 且 在 一 
部 分 查询 上 实际 上 降低 了 结果 的 质量 ， 但 是 可 以 说 是 搜索 广告 原生 化 
的 一 种 探索 。 

另外 一 个 原生 化 的 趋势 ， 在 有 些 直 接 面 癌 商 品 的 信息 类 搜索 中 ， 
像 图 5-4 中 那样 提供 结构 化 内 容 结 果 时 ， 在 其 中 混入 商业 化 结果 ， 并 进 
行 统一 排序 。 与 只 提供 自然 结果 相 比 ， 这 可 以 增强 变现 能 力 ; 与 只 提 
供 广 告 结 果 相 比 ， 这 可 以 避免 需求 不 足 带 来 的 结果 质量 下 降 。 这 样 的 
广告 ， 也 可 以 称 为 “商品 直达 式 广 告 ”。 
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共 找 到 月 饼 相 关 产品 13467 件 。 查 看重 多 >> 
图 5-4 商品 直达 式 搜索 广告 示例 
我 们 认为 ， 搜 索 广告 实际 上 是 比 信 息 流 广告 更 加 重要 的 原生 广告 
起 源 ， 而 且 搜 索 广告 的 一 些 重 要 特点 可 以 被 借鉴 到 原生 广告 平台 的 产 
品 之 中 ， 这 一 点 在 第 7 章 介 绍 原生 广告 时 再 讨论 。 
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除了 产品 形式 上 的 创新 ， 搜 索 广告 的 投放 和 优化 策略 也 是 产品 的 
重要 一 环 。 要 了 解 产 品 策略 方面 的 关键 点 ， 我 们 爷 来 看 一 下 搜索 广告 


决策 的 基本 过 程 。 
如 图 5-5 所 示 ， 搜 索 广 告 的 整个 决策 过 程 可 以 分 为 查询 扩展 、 检 
索 、 排 序 、 放 置 、 定 价 等 几 个 阶段 。 查 询 扩展 是 搜索 广告 独 有 的 策 
略 ， 目 的 是 给 广告 主 目 动 地 拓展 相关 的 查询 词 ， 扩 大 采 买 流量 ; 广告 
检索 和 将 候选 广告 根据 eCPM 排序 是 广告 系统 较为 通用 的 核心 流程 
(本 章 后 面 介 绍 广 告 网 络 时 再 讨论 ) ; 而 定价 是 竞价 广告 非常 核心 的 
策略 (在 下 一 节 机 制 设计 中 将 重点 介绍 ) 。 


图 5-5 搜索 广告 决策 过 程 示意 


需要 说 明 ， 在 搜索 广告 中 ， 排 序 的 依据 ， 即 eCPM， 可 以 简单 地 表 
示 成 r (a, c) =p (a, c) ‘bid, (a) 。 不 过 在 实际 产品 中 ， 点 击 率 上 
这 一 项 会 被 质量 度 (quality score) 所 替代 ， 而 后 者 除了 考虑 点 击 率 ， 
还 需要 综合 诸如 落地 页 质量 等 其 他 因素 ， 得 到 更 全 面 的 对 广告 质量 的 
评价 ， 其 目的 是 为 了 避免 广告 主 的 恶意 行为 、 促 进 市 场 长 期 发 展 等 。 
而 在 本 书 中 ， 为 了 说 明基 本 概念 和 算法 ， 将 主要 考虑 点 击 率 的 作用 。 

1. 查 询 扩展 

查询 扩展 是 搜索 广告 的 一 项 关键 策略 。 对 广告 主 来 说 ， 从 浩 若 烟 
海 的 关键 词 中 找到 符合 自己 需求 的 组 合 绝 非 易 事 。 因 此 ， 搜 索引 擎 会 


提供 一 些 将 广告 中 的 关键 词 匹配 到 更 多 相关 碍 询 的 服务 ， 第 见 的 几 种 
匹配 方式 如 下 。 

(1) 精确 匹配 ， 即 不 对 广告 主 提供 的 关键 词 做 任何 形式 的 扩展 ， 
保证 忠实 按照 广告 主意 图 精准 执行 。 精 确 匹 配 的 执行 方式 是 首先 将 用 
户 输入 的 查询 分 词 ， 例 如 , “英语 培 训 ” 这 个 查询 ， 可 以 分 成 {英语 ， 培 
训 } 这 个 词 集 合 ， 当 这 个 词 集 合 与 广告 主 设 定 的 关键 词 集合 完全 一 致 
时 ， 束 触发 了 精确 匹配 。 以 “英语 培训 ”这 个 关键 词 为 例 ， 在 精确 匹配 
方式 下 ， 可 能 触发 广告 的 有 “英语 培训 、 培 训 英 语 * 这 两 个 查询 。 

(2) 短语 匹配 。 当 用 户 的 查询 完全 包含 广告 主 关 键 词 及 关键 词 

(包括 关键 词 的 同义词 ) 的 插入 或 颠倒 形态 时 ， 束 认为 匹配 成 功 ， 可 
以 触发 相应 的 广告 候选 。 仍 以 “英语 培训 ”这 个 关键 词 为 例 ， 在 短语 匹 
配方 式 下 ， 可 能 触发 广告 的 搜索 有 “英语 培训 、 英 语 培训 暑期 班 、 哪 个 
英语 培训 机 构 好 、 英 语 的 培训 、 英 语 相 关 培 训 、 哆 文 培 训 * 等 。 但 
像 “ 身 语 歌 曲 、 电 脑 培 训 *” 这 样 的 词 束 不 会 触发 。 这 种 方式 古 用 较 精 细 
的 概念 匹配 较 寓 泛 的 概念 ， 因 此 一 般 来 说 还 是 比较 精准 的 。 

(3) 广泛 匹配 。 当 用 户 的 查询 词 与 广告 主 的 关键 词 高 度 相 关 时 
即使 广告 主 并 未 提交 这 些 查 询 词 ， 也 可 能 被 匹配 。 仍 以 关键 词 “ 身 语 培 
训 ” 为 例 ， 在 广泛 匹配 方式 下 ， 可 能 会 触发 “外 语 学 习 班 、 四 级 证 书 ” 这 
样 的 查询 。 广 泛 匹配 的 逻辑 并 没有 清晰 的 定义 ， 一 般 来 说 ， 都 是 用 数 
据 控 掘 的 算法 目 动 获 得 。 因 此 ， 虽 然 打 开 广 泛 匹 配 可 以 获得 较 多 的 流 
量 ， 但 是 流量 的 精准 性 往往 会 打 一 定 的 折扣 。 


(4) 否定 匹配 。 由 于 短语 匹配 和 广泛 匹配 都 是 系统 自动 完成 ， 难 
免 会 出 现 一 些 匹 配 不 精准 的 结果 。 因 此 ， 需 要 同时 向 广告 主 提供 否定 
匹配 的 功能 ， 即 明确 指出 哪些 词 是 不 能 被 匹配 的 ， 这 样 可 以 灵活 地 关 
停 一 些 低 效 的 流量 。 

短语 匹配 和 广泛 匹配 都 属于 典型 的 拓 词 方式 ， 将 其 与 否定 匹配 相 
结合 ， 广 告 主 可 以 比较 自由 地 在 流量 和 质量 之 间 找 到 平衡 点 。 然 而 由 
于 媒体 与 广告 主 利益 的 不 一 臻 性， 搜索 引擎 提供 的 拓 词 方式 未 必 是 对 
广告 主 最 佳 的 ， 我 们 后 面 介绍 SEM 产 品 时 会 讨论 这 一 点 。 

2. 广 告 放 置 

当 广 告 候 选 完成 排序 以 后 ， 需 要 分 别 确定 北 区 和 东区 的 广告 条 
数 ， 这 个 环节 称 为 广告 放置 (ad placement) 。 由 于 这 两 个 区 域 构成 一 
个 统一 的 竞价 队列 ， 实 际 上 是 要 分 别 设 定 进 入 北 区 和 进入 东区 的 条 
件 ， 其 中 最 关键 的 是 进入 北 区 的 条 件 。 

北 区 是 黄金 的 广告 展示 位 置 ， 对 于 搜索 广告 的 收入 至 关 重 要 。 一 
般 来 说 ， 通 用 搜索 引 警 的 广告 收入 中 绝 大 部 分 都 来 自 于 北 区 ， 因 此 北 
区 广告 的 平均 条 数 与 收入 直接 相关 。 但 同时 由 于 北 区 广告 直接 压低 了 
自然 结果 的 位 置 ， 必 然 会 对 用 户 体验 产生 一 定 的 影响 。 因 此 ， 要 达到 
商业 利益 与 用 户 体验 较 好 的 平衡 ， 我 们 在 关注 收入 指标 时 也 要 特别 关 
注 北 区 广告 的 数量 和 质量 。 往 往 在 考察 一 项 新 算法 对 RPM 的 影响 时 , 
我 们 也 应 同时 关注 整个 搜索 引擎 的 北 区 广告 平均 条 数 (North Foot 


Print ，NFP ， 或 Average Show Number, ASN) ， 而 在 NFP 显 著 变 化 
时 ， 对 应 的 RPM 变化 往往 没有 太 大 的 参考 价值 。 

确定 一 条 广告 能 否 进入 北 区 要 考虑 两 个 关键 因素 : 一 是 该 广告 相 
关 性 是 否 足 够 ， 二 是 该 广告 的 RPM 是 否 足 够 。 前 者 是 为 了 确保 用 户 体 
验 ， 后 者 是 为 了 高 效 地 利用 展示 位 置 。 另 外 ， 一 般 来 说 北 区 还 会 设 定 
一 个 广告 条 数 的 上 限 。 根 据 整 体 NFP 的 约束 和 收入 的 目标 ， 我 们 可 以 很 
容易 通过 数据 模拟 的 方法 确定 相关 性 和 RPM 的 最 优 靖 值 ， 这 些 我 们 将 
在 第 13 章 中 再 进行 讨论 。 

前 面 说 过 ， 搜 索 广 告 的 决策 一 般 来 说 不 太 考 虑 用 户 u 的 影响 ， 但 是 
在 确定 北 区 广告 条 数 这 个 问题 上 是 个 例外 ， 这 就 是 个 性 化 的 广告 放 
置 。 由 于 个 人 偏好 、 对 广告 了 解 程度 的 不 同 ， 不 同 的 用 户 对 广告 的 容 
忍 度 和 点 击 率 呈现 出 明显 的 差别 :有 一 部 分 用 户 总 是 会 跳 过 广告 ， 直 
接 从 上 自然 结果 开始 浏览 ;但 也 有 一 部 分 用 户 或 者 对 广告 不 太 分 辩 、 或 
者 对 其 接受 程度 高 ， 会 将 广告 与 自然 结果 一 样 看 待 ， 因 此 产生 大 量 点 
击 。 很 显然 ， 对 前 一 类 用 户 ， 应 该 降低 北 区 广告 条 数 ， 这 样 在 不 显著 
减少 收入 的 情况 下 可 以 换 来 更 好 的 用 户 体验 ， 而 对 后 一 类 用 户 ， 应 该 
在 有 符合 条 件 的 广告 时 ， 尽 可 能 用 足 北 区 的 位 置 。 


5.1.4 产品 案例 


1.Google AdWords 


Google 


AdWords 


AdWords7= Google 推 出 的 天 键 词 竞价 广告 产品 ， 每 年 为 Google 创 
造 百 亿 级 美元 的 营 收 。 在 产品 的 最 初 阶段 ，AdWords 是 以 搜索 词 为 定 癌 
条 件 ， 按 当时 最 流行 的 CPM 方式 售卖 ， 可 惜 销 售 结 打 不 理想 。 后 来 采 
用 了 Overture 的 CPC 售 卖方 式 ， 并 创造 性 地 在 CPC 的 售卖 方式 中 引入 了 
点 击 率 的 概念 ， 通 过 广告 的 点 击 率 表达 广告 的 相关 性 ， 取 得 了 非常 高 
ATEI ° 

Overture 发 明 CPC 售 卖方 式 的 时 候 广 告 的 投放 方式 很 简单 ， 只 是 以 
广告 主 的 出 价 排序 ， 出 价 最 高 的 广告 说 得 曝光 的 机 会 。Google 发 现 了 
此 模式 的 缺陷 : 出 价 最 高 的 广告 启 得 了 很 多 曝光 ， 但 如 果 没 人 点 击 ， 
平台 还 是 没有 收入 。 因 此 ，Google 将 策略 改变 为 在 投放 过 程 中 预 估 每 
条 广告 的 点 击 率 ， 然 后 按 点 击 率 和 出 价 的 乘积 对 广告 排序 ， 这 也 就 形 
成 了 现在 竞价 广告 普 裔 采用 的 根据 eCPM 决 策 的 逻辑 。 

在 引入 点 击 率 来 表达 相关 性 后 ， 在 CPC 模 式 下 形成 了 一 个 对 广告 
主 、 用 户 、 平 台 都 有 利 的 生态 。 在 此 生态 下 ， 广 告 主 可 以 通过 选择 天 
键 字 来 定向 目标 受众 ， 并 通过 改善 广告 创意 提高 点 击 率 的 方式 降低 出 
价 。Google 通 过 给 用 户 投 放 点 击 率 高 和 出 价 高 的 广告 提高 收益。 因为 
给 用 户 每 次 投放 都 是 点 击 率 高 的 “个 性 化 ”广告 ， 所 以 用 户 在 使 用 搜索 
引擎 时 看 到 了 更 多 相关 付费 信息 ， 降 低 了 广告 对 用 户 的 干扰 。 

相关 性 提高 后 ， 广 告 主 就 会 以 更 低 的 出 价 霹 取 更 多 的 点 击 ， 所 以 
广告 主 就 有 动力 通过 更 精准 的 关键 词 条 件 和 更 好 的 广告 创意 去 提高 
告 的 点 击 率 。 整 个 系统 的 营 收 也 束 相 应 增长 了 。2013 年 ，Google 财 报 


H Google Websites 的 收益 达到 了 374 亿 美元 a&， 而 这 主要 来 自 于 Google 
AdwWords 这 一 款 搜索 广告 产品 。 

需要 说 明 ， 为 了 简化 概念 ， 这 里 介绍 的 AdWords 是 其 过 去 的 产品 范 
Wf HB, Google; han! GMA > ERE SAW RTT A 
口 统一 在 AdWords 产 品 下 ， 目 的 是 为 广告 主 提供 一 个 统一 市 场 
(universal arketplace) ， 方 便 统一 的 效果 跟踪 优化 ， 这 实际 上 也 是 广 
告 产品 面向 需求 方 接口 的 一 个 重要 趋势 。 

2. 淘 宝 直 通车 


» A5: ELE E 
相 比 于 AdWords 这 种 通用 搜索 引 警 的 广告 产品 ， 淘 宝 直 通车 是 
C2C 电子 商务 公司 淘宝 专门 服务 于 卖家 的 广告 产品 。 如 图 5-6 所 示 ， 淘 
宝 直通 车 广告 主要 出 现在 淘宝 站 内 搜索 结果 页 上 。 但 是 由 于 商品 搜索 
的 结果 展示 与 通用 搜索 引 警 有 很 大 区 别 ， 相 应 的 广告 展示 也 有 很 大 不 
同 。 在 图 5-6 中 ， 广 告 只 出 现在 页 面 的 东区 和 南 区 。 
淘宝 直通 车 的 前 身 是 雅虎 直通 车 ， 卖 家 可 以 在 雅虎 搜索 和 雅虎 网 
站 上 投放 广告 ，2008 年 改名 为 淘宝 直通 车 。 开 始 的 广告 排名 规则 非常 
简单 ， 即 出 价 高 的 广告 主 最 得 投放 机 会 。 之 后 淘 军 也 完善 了 广告 策 
略 ， 开 始 采用 与 AdWords 一 样 的 eCPM 排 序 方式 。 相 比 之 前 的 广告 排名 
规则 ， 由 于 投放 的 广告 相对 来 说 点 击 率 都 比较 高 ， 使 得 卖家 的 转化 率 
提升 ， 而 淘宝 也 因为 宝贝 整体 的 点 击 率 提升 获得 更 多 的 营 收 ， 形 成 共 
万 的 局 面 。 


与 通用 搜索 引擎 的 广告 主 来 目 各 行 各 业 不 同 的 是 ， 淘 至 直 通车 的 
广告 主 米 目 于 淘宝 平台 上 的 卖家 群体 。 淘 宝 与 它 的 广告 主 之 间 基 本 是 
共生 的 关系 ， 这 使 得 淘宝 对 其 广告 主 有 更 大 的 影响 力 ， 并 在 如 下 的 几 
个 方面 有 显著 的 优势 。 

(1) 广告 主 可 以 推广 单 品 ， 并 且 直 接 复 用 商品 的 图 片 、 描 述 等 信 
轧 ， 而 不 需要 针对 广告 渠道 制作 创意 ， 这 使 得 大 量 中 小 卖家 使 用 直通 
车 的 额外 成 本 很 低 。 

(2) 站 内 搜索 由 于 与 用 户 购 买 意图 强 相关 ， 因 此 广告 的 效果 较 
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图 5-6 淘宝 直通 车 广告 示例 

(3) 由 于 淘宝 对 其 广告 主 全 部 转化 流程 的 了 解 ， 使 得 淘宝 直通 车 
在 利用 后 续 数 据 优化 广告 系统 ， 如 转化 预 佑 、 商 品 上 下 架 同步 等 
面 ， 都 有 着 一 般 搜索 广告 难以 达到 的 深入 程度 。 

因此 ， 虽 然 淘宝 直通 车 仅仅 是 一 个 垂直 搜索 引 警 的 广告 系统 ， 
态 体系 却 文 撑 了 阿里 巴巴 这 一 中 国 最 大 互联 网 公司 大 部 分 的 营 收 和 利 
润 ， 也 是 淘宝 变现 的 主要 途径 之 一 。 这 个 例子 告诉 我 们 ， 在 一 些 高 疡 
业 价 值 的 垂直 搜索 引擎 《如 电 商 、 房 产 、 汽 车 、 应 用 下 载 ) 之 中 ， 利 
用 搜索 广告 的 产品 体系 进行 变现 是 需要 最 优先 考虑 的 流量 变现 方式 。 


5.2 位 置 拍 卖 与 iti 


以 搜索 广告 为 代表 的 竞价 广告 实际 上 是 像 拍卖 那样 销售 广告 展示 
机 会 。 也 就 古 说 ， 系 统 根据 广告 主 的 出 价 以 及 由 此 计算 出 的 eCPM 决 定 
谁 可 以 得 到 菏 次 展示 的 广告 位 。 在 苋 价 广告 初始 阶段 ， 出 价 十 广告 主 
阶段 性 调整 的 ， 而 到 了 广告 实时 交易 阶段 ， 广 告 主 可 以 对 每 次 展示 实 
时 调整 出 价 &。 但 是 从 拍卖 市 场 的 宏观 角度 看 ， 这 两 种 竞价 没有 本 质 差 
别 。 

证 我 们 先 来 看 看 怎样 描述 竞价 广告 问题 ， 并 从 安 观 市 场 的 角度 了 
解 一 些 重 要 结论 。 如 图 5-7 所 示 ， 假 设 有 一 组 广告 位 可 以 被 占用 ， 将 这 
些 广告 位 按照 其 经 验 价 值 排名 ， 分 别 记 为 s=1，2，…，S (对 横幅 广告 
而 言 ， 这 里 的 $ 一 般 为 1) 。 在 某 次 广告 请 求 中 ， 有 一 组 广告 a=1，2， 


…，A 出 价 参与 拍卖 ， 每 个 广告 的 出 价 记 为 b,， 系 统 将 前 $ 个 高 出 价 的 
广告 依次 放 到 前 面 排序 好 的 $ 个 广告 位 上 ， 这 样 的 问题 称 为 位 置 担 卖 
o 根据 前 文 的 讨论 ， 当 某 个 广告 a 被 放 在 s 位 置 上 


(position auction) 

时 ， 其 期 望 收益 即 eCPM 为 r,=phwv,。 这 里 我 们 作 了 一 些 假设 ， 比 如 ， 点 
iX h 仅 与 位 置 Ss 有 关 ， 而 点 击 价值 v 仅 与 广告 as 有 关 ， 这 些 假设 在 搜 
索 广 告 给 定 某 具 体 关 键 词 的 情形 下 可 以 说 基本 合理 ， 对 于 展示 广告 的 
情形 虽然 非常 近似 ， 但 并 不 太 影 响 对 竞价 问题 宏观 市 场 的 讨论 。 


? « 
a — 2 " 
A. a= 3 Seni Be 
V3 
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图 5-7 位 置 拍卖 问题 示例 
如 何 设计 这 样 的 位 置 拍卖 问题 中 的 一 些 重要 机 制 往 往 对 整个 竞价 
市 场 的 收益 、 稳 定性 、 公 平 性 等 有 痢 巨 大 的 影响 ， 这 一 类 问题 称 为 机 
制 设 计 问 题 。 在 广告 中 前 见 的 机 制 设 计 问 题 包括 定 价 、 市 场 保留 价 、 


价格 挤 压 等 。 


5.2.1 定价 问题 


围绕 位 置 拍 卖 最 重要 的 机 制 设计 是 所 谓 的 定价 (Pricing) 问题 ， 
它 探讨 的 是 在 一 次 位 置 招 卖 中 给 定 各 参与 者 的 出 价 以 及 他 们 的 期 望 收 
鼻 ， 如 何 对 最 后 获得 某 个 位 置 的 广告 主 收取 合适 的 费用 。 

讨论 定价 问题 乍 听 起 来 有 些 多 余 ， 有 人 会 说 按照 广告 主 目 己 的 出 
GUC ANA RT EA T R39. 为 了 解释 研究 此 问题 的 动机 ， 我 们 先 来 看 看 下 
面 的 例子 : 假设 有 某 个 单位 置 (S=1) 的 广告 机 会 在 竞拍 ， 开 始 有 两 个 
广告 主 参与 ， 甲 出 价 1 元 ， 乙 出 价 2 元 ， 当 然 乙 最 得 了 此 次 竞价 ， 如 果 
按照 其 出 价 来 收费 ， 市 场 承 问 他 收取 2 元 的 费用 。 在 广告 市 场 里 ， 这 一 
拍卖 机 会 还 会 重复 出 现 (对 应 于 不 断 产生 的 展示 ) ， 因 此 广告 主 可 以 
也 存在 调整 出 价 的 机 会 ， 假 设 乙 在 发 现 目 己 2 元 钱 能 拿 到 流量 以 后 ， 目 
然 束 会 想到 ， 是 不 是 可 以 调 低 出 价 ， 用 更 低 的 成 本 拿 到 流量 ? 乙 将 一 
直 不 断 党 试 ， 直 到 把 出 价 调 低 到 1.01 元 ， 发 现 继续 调 低 就 拿 不 到 位 置 
了 “。 于 是 系统 稳定 在 甲 出 价 1 元 ， 乙 出 价 1.01 元 。 此 时 假设 又 有 一 个 
广告 主 丙 加 入 竞争 ， 并 希望 说 下 此 广告 位 ， 那么 以 此 类 推 , 他 在 不 断 
调整 后 将 会 出 价 1.02 元 ， 市 场 的 收入 也 就 十 1.02 元 。 我 们 有 可 能 通过 
调整 定价 策略 来 影响 系统 的 忌 收 益 吗 ? 答案 是 肯定 的 。 比 如 我 们 在 甲 
H1, Gh 2 元 参与 竞价 时 ， 并 不 对 获胜 的 乙 收 2 元 ， 而 是 收取 其 下 
一 名 即 甲 的 出 价 1 元， 那么 甲 束 没有 动力 调 低 其 出 价 了 。 那 么 当 丙 加 
入 时 ， 束 需要 出 价 2 元 以 上 才 可 以 赢得 竞价 ， 市 场 的 收入 也 就 变 成 了 2 
元 (不 论 丙 出 价 多 少 ， 我 们 都 按 其 下 一 位 即 乙 的 出 价 来 收费 ，。 这 个 
简单 的 例子 告诉 我 们 ， 在 广告 这 样 的 参与 者 可 以 针对 同一 个 标的 物 不 


断 调 整 出 价 的 拍卖 环境 中 ， 通 过 聪明 的 定价 策略 完全 可 能 为 整个 市 场 
创造 更 高 的 收益 和 更 好 的 市 场 稳定 性 。 

在 定价 问题 上 ， 我 们 在 微观 上 的 直觉 未 必 可 以 推广 到 宏观 市 场 。 
从 整个 市 场 的 角度 来 看 ， 我 们 重点 需要 研究 的 是 市 场 处 于 稳定 状态 下 
的 收益 和 其 他 特性 。 而 所 谓 稳 定 ， 指 的 是 整个 竞价 系统 处 于 纳什 均衡 
(Nash equilibrium) 状态 ， 也 即 每 个 广告 主 都 通过 出 价 得 到 了 最 符合 
自己 利益 的 位 置 。 对 某 一 次 位 置 竞价 来 说 ， 其 对 称 纳什 均衡 
(symmetric Nash equilibrium) 状态 可 以 表示 为 下 式 : 


lts(Vs—ds) 2 mlv- qi, Vt» s 


Us(Vs — qs) 2 Mi(Vs — qt1),Vt <s 

注意 这 里 的 下 标 意 义 有 所 调整 ， 这 里 的 v 指 的 是 排 在 s 位 置 上 的 广 
告 的 点 击 价值 ， 并 非 s 位 置 市 来 的 点 击 价值 ， 而 q 指 的 是 市 场 向 排 在 s 
位 置 上 的 广告 收取 的 费用 ， 即 定价 ， 也 束 古 广告 主 的 单 次 投入 。 这 一 
均衡 状态 的 意义 很 容易 理解 : 对 于 最 终 位 置 排名 竞价 结果 中 的 每 一 条 
广告 ， 其 收益 都 比 排 在 其 他 位 置 上 要 高 。 显 然 ， 在 这 样 的 状态 下 ， 每 
个 广告 主 都 达到 了 目 己 最 优 的 状态 ， 整 个 系统 也 就 随 之 稳定 下 来 。 

在 公式 5.1 中 ， 市 场 方 能 够 调整 的 策略 只 有 gq 的 确定 方式 ， 也 就 是 
定价 策略 。 随 着 定价 策略 的 不 同 ， 市 场 达到 稳定 状态 时 的 宏观 收益 情 
况 和 稳定 的 程度 都 有 所 不 同 。 因 此 ， 有 关 竞 价 市 场 宏观 性 质 的 研究 主 
要 目的 是 寻找 更 好 的 定价 策略 以 优化 整体 收益 。 由 于 位 置 竞 价 问 题 纳 


什 均衡 状态 的 数学 分 析 与 本 书 的 产品 和 技术 重点 有 一 定 差距 ， 因 此 不 
再 介绍 这 方面 的 内 容 ， 有 兴趣 的 读者 可 以 阅读 参考 文献 [72] 。 

在 线 广告 竞价 市 场 最 常见 的 定价 策略 是 GSP 方 案 ; 另外 有 一 种 
VCG (Vickrey-Clarke-Groves) 定价 策略 ， 虽 然 理 论 上 比 GSP 更 合理 ， 
但 是 由 于 原理 较 复杂 ， 向 广告 主 解释 起 来 有 难度 ， 因 此 在 实际 系统 
采用 的 并 不 多 。 下 面 我 们 分 别 介绍 这 两 种 定价 策略 。 

1. 广 义 第 二 高 价 (GSP) 

先 来 看 看 什么 叫 第 二 高 价 (second price) %。 所 谓 第 二 高 价 ， 指 的 
是 在 只 有 一 个 位 置 的 拍卖 中 ， 向 赢得 该 位 置 的 广告 主 收取 其 下 一 位 广 
告 主 的 出 价 ， 这 样 的 拍卖 也 叫 作 Vickrey 拍 卖 。 在 搜索 广告 这 种 有 多 个 
位 置 的 拍卖 过 程 中 ， 很 容易 直觉 地 将 第 二 高 价 策略 推广 成 下 面 的 策 
WE: 对 赢得 每 一 个 位 置 的 广告 主 ， 都 按照 他 下 一 位 的 广告 位 置 出 价 来 
收取 费用 ， 这 就 是 广义 第 二 高 价 mm 。 

第 二 高 价 和 广义 第 二 高 价 的 直觉 合理 性 在 上 面 已 经 有 所 解释 。 但 
是 实际 上 ， 第 二 高 价 是 单位 置 拍卖 时 的 最 优 定价 策略 ， 然 而 广义 第 二 
高 价 却 不 是 多 位 置 拍 卖 时 的 最 优 定价 策略 〈 最 优 策 略 是 下 面 要 介绍 的 
VCG 定 价 ) 。 虽 然 并 非 理 论 上 最 优 ， 广 义 第 二 高 价 却 有 着 实现 简单 、 
容易 向 广告 主 解释 等 诸多 操作 中 的 优点 ， 因 此 在 实际 的 竞价 广告 系统 
中 是 最 主流 的 定价 策略 。 

如 果 是 按照 CPM 结算 ， 那 么 广义 第 二 高 价 可 以 非常 直接 地 应 用 。 
然而 在 CPC 结 算 的 竞价 广告 系统 中 ， 广 告 主 的 出 价 是 针对 点 击 的 ， 而 


苋 价 是 针对 eCPM 的 ， 因 此 要 对 两 者 换算 一 下 以 实现 CPC 情 形 下 的 广义 
Bie, -其 定价 公式 如 下 : 
Qs = Hs+1bs+i/ Ps + A (5.2) 
如 果 将 等 式 两 边 同 时 乘 以 Ah ， 可 以 看 出 广义 第 二 高 价 实际 上 仍然 
是 eCPM 上 的 第 二 高 价 。 
读者 可 以 自行 验证 ， 不 论 是 CPM 还 是 CPC 结 算 ， 在 广义 第 二 高 价 
的 情形 下 ， 对 某 广告 主 的 定价 是 一 定 不 会 大 于 其 出 价 的 。 实 际 上 ， 这 
种 定价 策略 也 同样 适用 于 CPS 结 算 的 竞价 市 场 ， 并 且 只 需要 将 公式 5.2 
中 的 p 换 成 pv 即 可 。 公 式 5.2 最 后 的 A， 一 般 为 广告 系统 结算 货币 的 最 小 
单位 ， 如 1 美 分 ， 这 是 一 种 历史 惯例 ， 也 在 某 种 程度 上 让 广告 主 心 理 上 
感觉 更 加 公平 。 


2.VCG 


VCG 定 价 m ?* ”是 Vickrey ^ Clarke#ll Groves 在 研究 竞价 系统 均衡 
状态 时 得 到 的 一 种 理论 上 较为 优越 的 定价 党 略 。 其 基本 思想 是 : 对 于 
局 得 了 某 个 位 置 的 广告 主 ， 其 所 付出 的 成 本 应 该 等 于 他 占据 这 个 位 置 
给 其 他 市 场 参与 者 市 来 的 价值 损害 。 在 这 一 原则 下 ，VCG 的 定价 策略 
可 以 表示 为 公式 5.3。 


di S ua E Ju )vi (5.3) 


t>s 
这 种 定价 策略 直觉 上 的 合理 性 很 容易 理解 。 理 论 分 析 表 明 ，VCG 


定价 策略 的 优越 性 体现 在 如 下 几 个 方面 EG, FEE SR AY es 


定 状 态 下 ， 整 个 市 场 是 truth-telling 的 。 所 谓 truth-telling， 可 以 理解 为 
每 个 广告 主 都 找到 了 自己 的 最 优 状 态 。 其 次 ， 相 对 于 其 他 的 定价 策 
略 ， 这 种 定价 向 广告 主 收 取 的 费用 是 最 少 的 。 在 单 广告 位 拍卖 的 情形 
F, VCG 定价 策略 就 退化 为 第 二 高 价 策略 。 

虽然 有 以 上 诸多 的 优点 ，VCG 定 价 在 竞价 广告 中 却 并 不 是 一 种 主 
流 的 方式 。 这 主要 是 由 于 这 种 定价 方式 的 逻辑 过 于 复杂 ， 比 较 难 以 向 
广告 主 解释 清楚 ， 另 外 在 广告 主 和 媒体 存在 博弈 关系 的 情形 下 ， 媒 体 
是 否 正 确 地 计算 了 “给 其 他 市 场 参 与 者 带 来 的 价值 损害 ”也 很 难 验证 。 
不 过 这 种 定价 方法 也 有 其 市 场 空间 ， 有 些 广告 厂商， 如 Facebook， 在 


实际 的 范 价 广告 系统 中 整 采 用 了 这 一 定价 机 制 。 


5.2.2 市 


为 了 控制 广告 的 质量 和 保持 一 定 的 出 售 单 价 ， 苋 价 三 告 市 场 往往 
要 设置 一 个 属 得 拍卖 位 置 的 最 低 价格 ， 这 一 价格 我 们 称 为 市 场 保留 价 
(Market Reserve Price, MRP) ， 俗 称 “ 起 价 ” 或 “压价 ”。 广告 主 的 出 价 
只 有 在 高 于 市 场 保留 价 时 才能 获得 竞价 机 会 ， 同 时 在 说 得 某 个 拍卖 位 
置 后 ， 如 果 根 据 定价 策略 算出 的 付费 低 于 市 场 保留 价 〈 以 广义 第 二 高 
价 为 例 ， 很 容易 验证 这 种 情况 是 可 能 发 生 的 ) ， 也 需要 调整 到 市 场 保 
留 价 的 水 平 上 ° 

确定 MRP 是 竞价 广告 重要 的 产品 策略 ，MRP 定 得 过 低 或 过 高 都 不 
利于 整个 市 场 的 收益 最 大 化 。 一 般 来 说 ， 当 竞争 较 充 分 、 广 告 主 深度 
足够 时 ，MRP 可 以 设置 得 比较 高 ， 反 之 则 应 适当 降低 。 市 场 保留 价 的 


设置 有 两 种 方法 ， 一 是 对 整个 竞价 市 场 采用 同样 的 保留 价格 ， 二 是 根 
据 不 同 标的 物 (如 搜索 广告 里 的 关键 词 ) 的 特性 设置 不 同 的 保留 价 
格 。 如 果 按 照 后 一 种 方法 设置 ， 显 然 应 该 对 那些 竞争 程度 较 激 烈 的 关 
键 词 设置 比较 高 的 MRP 。 

在 搜索 广告 的 实践 中 还 有 一 点 : 北 区 和 东区 的 广告 虽然 共享 一 个 
竞价 队列 ， 但 为 了 保证 北 区 黄金 位 置 得 到 较 好 的 变现 ， 我 们 往往 会 对 
北 区 单独 设 一 个 较 高 的 MRP 。 

关于 如 何 计算 最 优 的 市 场 保留 价 也 有 一 些 理论 研究 和 实践 方法 。 
简单 来 说 ， 一 个 特定 关键 词 的 最 优 起 价 仅 与 竞价 和 质量 度 的 分 布 有 
关 ， 通 过 拟 合 其 被 保留 价 截断 的 分 布 为 核心 ， 可 以 通过 理论 上 的 计算 
公式 来 解 出 最 优 起 价 。 自 付费 搜索 的 商业 模式 成 型 以 来 ， 搜 索引 警 便 
在 不 断 党 试 调整 关键 词 竞 拍 的 起 价 ， 在 市 场 可 以 接受 的 前 提 下 提升 目 
身 的 收益 水 平 。 在 2001F, Yahoo! 将 其 起 价 统一 设置 为 5 美 分 ，2008 
Æ, Yahoo! 结合 理论 的 推导 结果 ， 对 部 分 雅虎 搜索 关键 词 进行 动态 调 
价 ， 不 同 价值 的 关键 词 被 调整 为 不 同 的 起 价 。 此 次 调价 后 ， 根 据 持 续 
观测 ， 起 价 提升 在 2008 年 第 三 季度 对 收入 的 影响 为 +13%。 而 Google 并 
没有 公开 自己 的 起 价 计算 方法 与 过 程 ， 但 是 一 般 认 为 其 起 价 的 制定 策 
略 是 业界 较为 先进 的 ， 早 在 Yahool 实行 动态 起 价 之 前 ， 研 究 人 员 即 发 
现 Google 的 起 价 也 是 动态 的 。 

无 论 是 调整 市 场 整体 的 MRP， 还 是 在 不 同 流量 划分 上 动态 设置 
MRP， 其 基本 原理 都 是 根据 竞价 广告 主 的 geCPM 分 布 ， 找 到 一 个 使 得 填 


充 率 没 有 明显 下 降 的 CPM 改 价 ， 然 后 再 根据 质量 度 倒 算 其 CPC 底 价 。 
实际 上 ， 由 于 考虑 质量 度 ， 动 态 底价 可 以 同时 与 (a，u，c) 这 三 个 参 
数 都 有 关系 ， 做 到 完全 的 动态 。 有 关 动 仿 市 场 保 留 价 的 原理 和 具体 算 
法 可 以 进一步 参考 参考 文献 [64] 。 


在 CPC 结算 的 广告 产品 中 ，eCPM 可 以 表示 成 点 击 率 和 出 价 的 乘 
A, Bl r=phv=hbid。 但 是 在 竞价 的 机 制 设计 中 ， 有 时 会 对 此 公式 做 一 
些微 调 ， 把 它 变 成 下 面 的 形式 : 
r= u^ - bidepc (5.4) 

其 中 的 k 为 一 个 大 于 0 的 实数 。 可 以 考虑 两 种 极端 情况 来 理解 k 的 作 
H: 当 k 一 w% 时 ， 相 当 于 只 根据 点 击 率 来 排序 而 不 考虑 出 价 的 作用 ;， 反 
之 ， 当 k 一 0 时 ， 则 相当 于 只 根据 出 价 来 排序 。 因 此 ， 随 着 k 的 增 太 ， 相 
当 于 我 们 在 挤 压 出 价 在 整个 竞价 体系 中 的 作用 ， 因 此 我 们 把 这 个 因子 
叫做 价格 挤 压 (squashing) 因子 。 

价格 挤 压 因子 的 作用 主要 是 能 够 根据 市 场 情况 更 主动 地 影响 竞价 
体系 向 着 需要 的 方向 发 展 。 比 如 说 ,如果 发 现 市 场 上 存在 大 量 的 出 价 
较 高 但 品质 不 高 的 广告 主 ， 则 可 以 通过 调 高 k 来 强调 质量 和 用 户 反 馈 的 
影响 ， 如 果 发 现 市 场 的 竞价 激烈 程度 不 够 ， 则 可 以 通过 降低 k 来 逆 励 苋 
争 ， 如 琳 存 在 短期 的 财务 压力 ， 这 样 束 可 以 短期 使 得 整体 宫 收 有 所 上 
Ht; 如 有 果 为 了 鼓励 广告 主 提高 广告 质量 和 相关 性 ， 则 可 以 通过 提高 k 来 
降低 出 价 的 影响 。 


oH 


5.2.4 结果 示 


我 们 用 一 个 具体 的 例子 来 直观 地 说 明 上 述 的 综合 竞价 和 定价 过 
fe: 假设 有 一 组 广告 竞争 一 个 有 多 个 位 置 的 搜索 广告 展示 机 会 ， 其 出 
价 和 系统 对 其 对 其 点 击 率 9 的 预 佑 如 表 5-2 中 的 第 2 列 和 第 3 列 所 示 ， 那 
么 计算 出 的 eCPM 以 及 在 按照 GSP 定 价 策略 并 取 不 同 k 值 时 向 每 个 广告 
主 收取 的 费用 如 表 5-2 的 后 面 几 列 所 示 %。 从 表 5-2 的 例子 中 可 以 看 出 ， 
经 过 GSP 的 CPC 定 价 并 不 是 降序 的 ， 并 且 存 在 低 于 MRP (如 第 3 位 的 广 
告 ) 的 情形 ， 这 时 需要 将 其 强制 设 为 MRP; 另外 ，r 会 对 排序 和 计价 都 
有 明显 的 影响 。 

表 5-2 GSP 广告 竞价 过 程 示例 〈 单 位 : 元 MRP=0.25) 


排序 /定价 (k=2.5) | 排序 /定价 (k=0.5) 


希望 进一步 了 解 具体 实现 过 程 的 读者 ， 可 以 参考 13.1 节 中 的 示例 代 
码 。 至 于 按 VCG 定 价 策略 向 每 个 广告 主 收取 的 费用 ， 读 者 可 以 自行 探 
E 


5.3 广告 网 络 


竞价 广告 产品 在 搜索 广告 逐渐 成 熟 的 同时 也 在 展示 广告 领域 得 到 
了 广泛 应 用 。 对 展示 广告 而 言 ， 合 约 式 的 售卖 方式 必然 无 法 消耗 所 有 
的 库存 ， 实 际 销售 中 为 了 控制 售卖 比例 以 获得 更 高 的 品牌 溢价 空间 ， 
未 通过 合约 售卖 的 广告 流量 很 多 。 这 部 分 流量 我 们 称 为 剩余 流量 
(remnant inventory) 。 竞 价 交 易 模 式 的 产生 为 这 部 分 流量 提供 了 变现 
的 机 会 ， 催 生 了 广告 网 络 这 一 产品 。 广 告 网 络 的 产品 功能 是 批量 聚合 
各 媒体 的 剩余 流量 ， 按 照 人 群 或 上 下 文 标签 的 流量 切割 方式 售卖 给 广 
告 主 。 

对 于 一 些 中 小 网 站 而 言 ， 甚 至 完全 没有 按 合约 售卖 的 流量 ， 而 是 
将 所 有 的 广告 位 都 交 给 广告 网 络 来 变现 ， 图 5-8 中 给 出 了 一 个 网 页 上 所 
有 广告 网 络 位 置 的 示例 ， 其 中 所 有 用 线 框 标 出 的 部 分 都 是 交 由 广告 网 
络 来 变现 的 。 
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图 5-8 广告 网 络 广告 示例 


5.3.1 广告 网 多 ES 


一 般 来 说 ， 广 告 网 络 中 的 投放 决策 过 程 对 媒体 而 言 类 似 于 一 个 黑 
盒子 : 只 需要 在 广告 位 的 剩余 流量 上 调用 广告 网 络 的 投放 代码 或 
SDK， 而 不 用 关心 每 次 展示 的 投放 结 末 。 在 实际 运 各 中， 广告 网 络 既 
有 竞价 的 售卖 方式 ， 也 有 合约 的 售卖 方式 。 不 过 我 们 这 里 重点 讨论 的 


是 其 竞价 部 分 


竞价 广告 网 络 的 产品 逻辑 如 图 5-9 所 示 。 这 里 的 产品 关键 ， 一 是 售 

卖 的 标的 主要 是 人 群 ， 而 广告 位 被 淡化 了 。 (根据 上 一 章 的 讨论 知 

道 ， 合 约 广告 是 很 难 淡化 广告 位 标的 的 。) 另外 ， 当 流量 满足 多 个 广 
生活 动 要 求 时 ， 价 单 地 采用 融 价 模式 而 不 用 考虑 量 的 合约 。 
M A AR 人 群 ， AGE. 
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剩余 流量 


图 5-9 广告 网 络 广告 示例 
根据 人 和 群 划 分 模式 的 不 同 ， 广 告 网 络 产品 其 实 有 两 个 来 源 : 一 方 


面 来 产 于 搜索 引擎 发 展 出 来 的 上 下 文 广告 产品 ， 即 根据 页 面 中 提取 的 
关键 词 来 投放 广告 ， 男 一 方面 来 源 于 展示 广告 的 兴趣 标签 向 精细 化 发 
展 后 。 无 论 上 下 文 还 是 兴趣 ， 都 可 以 看 成 是 对 受众 的 划分 方式 ， 因 而 
筷 们 都 统一 在 广告 网 络 这 一 产品 中 。 

苋 价 广告 网 络 有 下 面 儿 个 关键 的 产品 符 感 。 

(1) 竞价 方式 不 向 广告 主 做 量 的 约定 ， 而 是 根据 变现 能 力 ， 即 
eCPM， 来 决定 每 次 展示 分 配给 哪个 广告 主 。 因此， 与 合约 式 的 广告 系 


统 不 同 ， 广 告 网 络 大 大 降低 了 为 保证 合约 而 设计 复杂 的 在 线 分 配 算法 
的 必要 性 ， 使 得 其 中 的 计算 技术 可 以 把 精力 集中 在 对 eCPM 的 估计 上 。 

(2) 由 于 是 按 人 群 售卖 ， 广 告 网 络 会 极力 淡化 媒体 和 广告 位 的 概 
。 由 于 淡化 了 媒体 的 概念 ， 广 告 网 络 中 很 难 拿 到 品牌 次 价 高 的 广告 
， 一 般 来 说 也 不 适合 广告 主 的 品牌 类 需求 。 

(3) 从 商业 角度 来 看 ， 广 告 网 络 的 销售 模式 与 合约 的 方式 相 比 也 
有 两 点 优势 : 首先 是 无 需 再 满足 广告 主 品 牌 独占 的 要 求 ， 这 使 得 让 国 
美和 苏宁 同时 参与 同一 个 人 群 的 竞价 、 提 高 市 场 流 动 性 成 为 可 能 ， 而 
在 合约 广告 中 ， 这 一 点 是 很 难 做 到 的 ;其 次 ， 由 于 广告 网 络 根据 实际 
消耗 来 结算 ， 一 般 来 说 财务 上 采用 广告 主 先 充值 的 方式 ， 这 区 别 于 合 
约 广告 投放 结束 后 计算 的 方式 ， 结 果 使 得 广告 网 络 运 营 方 的 现金 流 状 
况 大 为 改善 。 

广告 网 络 存在 CPM、CPC 和 CPS 等 不 同 的 结算 方式 ， 不 过 最 主流 的 
方式 是 CPC。 我 们 有 必要 从 计算 的 角度 分 析 一 下 CPC 结 算 的 合理 性 : 
首先 ， 从 需求 方 来 看 ， 既 然 是 各 种 媒体 的 不 同 广告 位 聚合 在 一 起 售 
3E, 广告 主 无 法 知道 每 个 媒体 上 广告 的 具体 位 置 。 而 位 置 对 于 广告 的 
上 曝光 效果 影响 巨大 ， 因 此 实际 上 广告 主根 本 无 法 评估 每 次 展示 的 出 
价 ， 而 在 点 击 上 出 价 ， 这 个 问题 就 没 那 么 严重 了 。 男 外 从 供给 方 来 
看 ， 由 于 淡化 了 广告 位 的 概念 ， 并 且 聚 合 了 多 个 媒体 的 流量 ， 广 告 网 
络 可 以 接触 到 同一 个 用 户 比 较 丰 富 的 网 络 行为 ， 并 且 知 道 每 次 展示 所 
在 的 媒体 与 广告 位 位 置 ， 所 以 比 广告 主 更 容易 估计 点 击 率 。 根 据 第 1 章 


è? 
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中 的 讨论 ， 由 广告 网 络 负责 估计 点 击 率 ， 需 求 方 根据 对 点 击 价值 的 舍 
计 来 出 价 ， 是 最 合理 的 市 场 分 工 。 

但 是 ， 对 于 一 些 有 特殊 业务 需求 或 者 特殊 数据 来 源 的 媒体 或 媒体 
组 合 来 说 ， 有 时候 希望 能 够 直接 从 三 告 网 络 的 广告 库 中 挑选 广告 ， 并 
能 够 创造 比 广 告 网 络 目 动 挑 选 更 多 的 价值 。 因 此 ， 某 些 广 告 网 络 也 会 
对 一 部 分 合作 供给 方 开放 广告 库 供 其 目 行 挑选 ， 广 告 网 络 的 这 种 运 各 
模式 可 以 称 为 联盟 (affiliate) 模式 。 


5.3.2 广告 网 络 产品 


广告 网 络 中 的 广告 决策 过 程 与 搜索 广告 相 比 ， 整 个 流程 要 们 单一 
些 ， 如 图 5-10 所 示 ， 分 为 检索 、 排 序 、 定 价 等 儿 个 阶段 。 虽 然 流程 相对 
简单 ， 但 是 广告 网 络 在 广告 检索 和 排序 两 个 环节 上 面临 的 问题 比 搜索 
更 加 通用 ， 因 此 在 产品 策略 方面 也 存在 着 不 小 的 挑战 。 


> 
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图 5-10 竞 f 

1 广告 检索 
广告 与 搜索 面 对 的 文档 其 实 不 同 ， 它 往往 是 一 个 用 布尔 表达 式 表 
达 的 投放 和 条件， 而 不 是 可 以 简单 看 成 一 个 词 的 集合 。 搜 索 那 样 的 面向 


广 


网 络 广告 决策 过 程 示意 


S 


词 集合 的 检索 方案 对 布尔 表达 式 来 说 不 是 最 有 效 的 。 在 搜索 广告 条 件 
下 ， 这 一 问题 并 不 突出 ， 但 是 在 展示 广告 网 络 中 ， 这 样 的 差别 就 值得 
重视 了 。 

搜索 广告 检索 与 搜索 基本 一 致 ， 用 第 规 的 倒 排 索引 技术 束 可 以 解 
决 。 展 示 广 告 网 络 与 搜索 广告 不 同 ， 由 于 用 户 意 图 不 明确 ， 我 们 往往 
要 将 更 多 的 关键 子 、 兴 趣 标 金 同时 用 于 检索 过 程 ， 而 实践 也 证 明 ， 使 
用 更 多 的 标签 对 于 提高 效果 是 有 直接 帮助 的 。 将 很 多 的 标签 同时 用 于 
一 次 检索 也 与 搜索 中 的 短 查 询 情形 差别 很 大 ， 这 可 以 描述 为 一 个 相关 
性 检索 问题 ， 需 要 探索 专门 的 方法 。 

以 上 两 个 问题 主要 都 与 具体 的 算法 有 关 ， 我 们 在 介绍 广告 技术 时 
再 详细 讨论 。 

2. 广 告 排序 

我 们 都 知道 ， 竞 价 广告 中 排序 的 准则 是 eCPM ， 而 在 CPC 结 算 的 情 
形 下 ， 对 eCPM 的 估计 转化 为 对 点 击 率 的 估计 问题 。 应 该 说 ， 在 搜索 广 
告 和 展示 广告 网 络 这 样 的 范 价 广告 产品 中 ， 扩 击 率 预测 的 问题 才 开 始 
面临 真正 的 挑战 。 

与 广告 位 较 规整 、 点 击 率 较 高 的 搜索 广告 相 比 ， 广 告 网 络 中 的 
CTR 预 测 有 两 方面 的 困难 。 首 和 匈 ， 点 击 数据 更 加 稀 琉 ， 而 且 需 要 同时 
考虑 上 下 文 和 用 户 量 方面 的 信息 ， 这 使 得 各 种 新 广告 、 痢 党 略 的 冷 局 
动 问题 非常 突出 。 如 何 设计 好 一 个 合理 可 行 的 冷 司 动 策略 ， 对 展示 广 
告 网 络 来 说 至 关 重 要 。 其 次 ， 广 告 网 络 中 由 于 广告 位 的 差别 巨大 ， 点 


击 率 的 变动 范围 很 大 ， 这 使 得 稳健 地 估计 点 击 率 变 得 相对 困难 。 我 们 
在 后 面 讨 论点 击 率 预 估 技 术 时 将 主要 以 展示 广告 的 复杂 情形 为 场景 展 
开 讨 论 ， 并 将 其 与 搜索 广告 的 特例 对 比 。 


5.3.3 产品 案例 


实际 的 广告 网 络 有 两 种 不 同 的 业务 方 同 ， 一 种 是 广泛 承接 各 种 广 
告 库 存 并 面 回 所 有 品类 的 广告 主 进行 服务 ， 称 为 水 平 广告 网 络 ; A 
种 则 专门 服务 于 某 一 种 类 型 的 广告 主 ， 如 电 商 、 游 戏 等 ， 并 寻找 相关 
的 媒体 资源 来 搭建 网 络 ， 称 为 垂直 广告 网 络 。 下 面 分 别 举例 介绍 这 两 
种 类 型 的 广告 网 络 。 

1.Google Display Network 


Google Display Network 

AdSense 是 Google 进 入 展示 广告 领域 的 第 一 个 广告 产品 ， 与 
Adwords 只 有 通过 采用 关键 词 来 定向 人 群 不 同 ，Adsense 定 向 人 群 的 广 
式 更 加 多 样 化 ， 可 以 通过 一 系列 关键 词 或 主题 来 确定 相关 的 网 页 ， 或 
者 通过 人 群 兴趣 、 性 别 等 人 群 、 历 史 访问 信息 等 属性 来 定向 人 群 ， 也 
可 以 通过 这 些 定向 条 件 的 组 合 精确 地 选择 想到 达 的 网 页 和 人 和 群 。 相 比 
AdwWords， 广 告 主 可 以 有 机 会 接盘 更 多 的 网 页 和 流量 。 

除了 定向 人 群 方面 的 不 同 ， 在 广告 竞价 环节 ，AdSense 和 AdWords 
的 流程 基本 一 致 ， 也 是 根据 eCPM 对 广告 排序 。 从 AdSense 的 定向 环节 
和 竞价 环节 的 不 同和 相似 我 们 可 以 发 现 ， 相 比 AdWords 的 生态 圈 中 只 


有 Google、 广 告 主 以 及 用 户 而 言 ，AdSense 多 了 网 站 (媒体 ) 这 一 参 
与 方 。 在 AdSense 的 生态 圈 中 ， 媒 体 方 会 通过 调整 广告 位 置 和 格式 、 
给 页 面 补充 合适 的 关键 字 以 吸引 更 多 同类 广告 等 方式 提高 点 击 率 。 广 
告 主 方 则 会 通过 选择 合适 的 定向 条 件 和 出 价 提高 点 击 率 。 在 这 种 机 制 
下 ， 用 户 会 看 到 更 多 相关 广告 ， 而 平台 方 也 会 有 比较 好 的 收益 。 

在 AdSense 之 后 ，Google 又 于 2008 年 收购 了 展示 广告 领域 的 巨头 
DoubleClick。 在 整合 旗下 Utunbe、Google Finance 以 及 AdSense 等 一 些 
告 资源 基础 上 ， 推 出 了 GDN (Google Display Network) 这 一 展示 广 
告 领 域 最 重要 的 产品 之 一 。 由 原来 Adsense 这 种 为 搜索 广告 的 衍生 产品 
存在 的 地 位 ， 进 化 到 独立 的 GDN ， 表 现 出 Google 对 展示 广告 领域 的 重 
视 和 独立 发 展 的 决心 。GDN 的 下 游 包括 DoubleClick Adx 和 一 些 TD， 平 
台 会 将 它 竞价 比较 低 的 流量 导 给 DoubleClick Adx 进 行 实时 竞价 ， 使 得 
一 些 长 尾 流量 可 能 会 以 比较 高 的 价格 卖 出 ， 而 TD 则 会 从 多 个 ADX 中 买 
流量 并 优化 ROI。 目 前 ，GDN 是 世界 上 最 大 的 展示 广告 网 络 ， 可 以 到 
达 90% 的 互联 网 用 户 和 超过 200 万 的 网 站 。 

在 Google 2013 年 的 财报 中 ，Google Network Members’ Websites 的 
收益 达到 了 131 亿 美元 。 
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流量 和 转化 ， 并 且 根 据 转化 的 比例 给 网 站 一 定 的 佣金 。 加 入 淘宝 客 网 
络 的 媒体 主要 是 为 淘宝 等 商家 带 来 流量 ， 因 此 阿里 妈妈 把 它们 称 为 “ 淘 
ER” o 淘宝 客 的 投放 方式 是 淘宝 客 网 站 通过 API 拿 到 相关 的 广告 ， 并 
目 行 决定 在 某 个 页 面 或 对 某 种 用 户 展 示 什 么 样 的 商品 ， 这 是 一 种 联盟 
BAT A ° 

直觉 上 ， 由 于 淘宝 掌握 的 用 户 数 据 和 运算 能 力 远 远 超过 一 个 个 孤 
立 的 淘宝 客 网 站 ， 让 淘宝 负责 广告 决策 ， 应 该 可 以 达到 更 好 的 eCPM， 
不 过 由 于 一 些 购 物 导 航 或 购物 分 享 类 型 的 个 人 博客 或 网 站 可 以 利用 软 
文 的 形式 非常 有 针对 性 和 全 面 地 介绍 和 宣传 菜 种 产品 ， 其 效果 远 远 高 
于 普通 的 在 线 广 告 。 因 此 ， 这 种 将 广告 库 开放 并 由 淘宝 客 网 站 自行 选 
择 广告 的 方式 ， 其 变现 能 力 在 充分 优化 后 也 相当 可 观 。 不 过 由 于 后 一 
种 方式 无 法 规模 化 ， 并 且 通 常 只 在 转化 流程 相当 完善 的 情形 下 才 有 意 
义 ， 因 此 并 不 见得 适用 于 一 般 的 广告 网 络 ， 但 在 电 商 垂直 广告 网 络 中 
是 不 错 的 方式 。 

由 于 广告 库 开 放 ， 淘 至 客 的 供给 方 操作 方式 很 多 样 : 既 有 返利 网 
站 、 独 立 博客 等 媒体 ， 也 有 以 论坛 、 微 博 、 邮 件 、QQ 群 等 作为 推广 方 
式 的 个 人 ， 还 有 的 通过 自己 开通 淘宝 客 来 输入 购买 商品 链接 以 赚 取 佣 
金 ， 目 的 在 于 获得 一 定 的 折扣 。 

2012 年 12 月 21 日 ， 阿 里 巴巴 宣布 重 局 “阿里 妈妈 ”品牌 ， 放 弃 “ 淘 宇 


联盟 ”。 


5.4 竞价 广告 需求 方 产品 


搜索 广告 和 竞价 广告 网 络 虽 然 效 果 差 别 很 大 ， 但 从 产品 本 质 上 
看 ， 属 于 同一 范畴 。 竞 价 广告 市 场 的 产生 对 需求 方 的 技术 也 提出 了 新 
WERK: 原来 通过 直接 与 媒体 签订 保 量 合约 的 采 闫 方式 变 成 通过 竞价 
为 广告 主 完成 量 与 质 需 求 的 采 买 产品 。 具体 地 说 ， 这 样 的 产品 需要 具 
备 一 项 基本 功能 ， 即 按照 广告 主 预算 跨 媒 体 一 站 式 采 天 人 群 的 功能 。 
另外 ， 还 可 以 具备 一 项 高 级 功能 ， 即 机 顺 决 策 的 ROI 优 化 功能 。 

这 样 的 需求 可 以 分 解 为 两 个 基本 问题 : 一 是 如 何 挑选 合适 的 目标 
人 群 ， 二 是 如 何 对 各 个 目标 人 群 给 出 合适 的 出 价 。 由 于 竞价 广告 乎 合 
的 决策 过 程 对 于 需求 方 来 说 是 个 黑 盒 子 ， 要 解决 好 这 两 个 问题 其 实 并 
不 容易 。 


搜索 广告 对 应 的 需求 方 产 品 ， 即 通过 竞价 采 买 搜索 引 敬 关键 词 来 
做 推广 ， 这 就 是 搜索 引擎 营销 ， 即 SEM。 上 面 说 的 两 个 基本 问题 在 
SEM 中 具体 表现 为 关键 词 选择 和 出 价 。 对 SEM 来 说 ， 各 个 标签 即 天 键 
词 的 流量 是 互相 不 重合 的 ， 这 与 展示 广告 受 众 定 同 标 仁之 间 可 以 进行 
复杂 的 布尔 运算 不 同 ， 实 际 上 比 人 和 群 标签 优化 要 直接 一 些 。 

关键 词 选择 和 出 价 两 个 问题 都 有 相当 的 难度 。 首 先 来 看 关键 词 选 
择 ， 如 果 广 告 主 提供 一 些 种 子 词 ， 那 么 这 个 问题 看 起 来 非常 类 似 于 
5.1.3 市 中 的 码 询 扩展 问题 ,但 义 有 相当 大 的 区 别 : 搜索 引擎 进行 查询 
扩展 的 目的 古 为 了 提高 自己 的 营 收 ， 而 需求 方 进行 关键 词 选择 的 目的 
是 为 了 提高 广告 主 末 买 流 量 的 ROI。 这 两 个 目标 显然 有 着 很 大 的 区 别 ， 


因此 广告 主 更 信赖 代表 需求 方 利 益 的 SEM 人 公司。 不 过 SEM 公 司 由 于 数 
据 来 源 的 问题 ， 需 要 长 期 的 数据 积累 才能 做 到 较 好 的 效果 。 同 时 ， 对 
于 大 量 长 尾 的 小 型 广告 主 ， 往 往 比 较 难 于 积累 起 足够 的 数据 用 于 优 
化 ， 因 此 这 类 SEM 公 司 服务 的 对 象 主要 是 中 型 以 上 的 广告 主 。 

出 价 的 问题 ， 传 统 的 认识 是 广告 主根 据 到 达 率 、 自 己 网 站 的 转化 
率 和 客 单价 来 估计 点 击 价值 ， 并 以 此 点 击 价 值 为 参考 来 出 价 。 不 过 这 
忽略 了 一 个 问题 ， 那 就 是 各 个 关键 词 的 转化 率 、 客 单价 和 市 场 竞争 水 
平 都 有 很 大 的 区 别 ， 因 此 只 有 在 不 同 关键 词 上 做 不 同 的 出 价 才 能 更 深 
入 地 优化 整体 采 买 的 ROI。 由 于 搜索 广告 的 定向 粒度 很 细 ， 可 以 看 出 天 
键 词 选择 和 出 价 都 是 规模 很 大 的 优化 问题 ， 而 且 由 于 广告 网 络 半 封闭 
的 竞价 机 制 ， 数 据 的 反馈 和 调整 都 不 够 及 时 ， 因 此 这 一 优化 问题 技术 
挑战 是 比较 大 的 。 


BRAN SMH — wR EER RART AREER, TLR 
似 的 概念 还 有 交易 终端 (Trading Desk, TD) ， 可 以 认为 是 同一 类 的 产 
B e 

从 市 场 发 展 来 看 ， 许 多 媒体 采 天 平台 都 是 4A 或 其 他 代理 公司 为 了 
适应 市 场 技术 形态 的 变化 ， 收 购 或 者 孵化 出 来 的 子 公司 ， 这 从 岁 1-9 中 
两 部 分 产品 之 间 的 连 线束 可 以 看 出 来 。 在 竞价 广告 市 场 上 ， 广告 主 量 
的 需求 仍然 是 存在 的 ， 因 此 保 量 的 合约 并 不 是 消失 了 ， 而 是 由 代理 与 
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里 然 概 念 类 似 ， 但 是 媒体 采 买 平台 的 难点 与 SEM 有 所 不 同 。 媒 体 

采 买 平台 的 技术 挑战 主要 在 于 ROI 的 优化 部 分 ， 要 合理 地 选择 需要 的 受 

定 问 条 件 ， 并 在 每 个 人 群 上 优化 出 价 ， 以 保证 量 的 要 求 和 优化 收 莅 

一 个 复杂 的 组 合 优化 问题 。 由 于 无 法 具体 控制 每 一 次 展示 ， 其 困难 

程度 要 高 于 后 面 实 时 竞价 的 情况 下 的 效果 优化 。 这 种 面向 广告 网 络 中 
JE RTB 流量 的 ROI 优 化 也 成 为 广告 技术 产品 的 一 个 重要 方 同 。 


5.4.3 产品 案例 


对 于 非 实 时 的 竞价 广告 产品 ， 需 求 方 的 优化 比较 困难 ， 因 此 主要 
在 投资 回报 比较 高 的 SEM 中 得 到 了 充分 发 展 。 我 们 举 一 个 SEM 产 品 的 
例子 供 大 家 参考 。 


EfficientFrontier 


Se 
€" EfficientFrontier. 

EF (EfficientFrontier) 开始 是 一 家 专门 从 事 SEM 优 化 的 广告 技术 
公司 ， 后 来 也 涉足 展示 广告 网 络 的 优化 领域 。2011 年 ，EF Adobe JE 
下 的 Omniture 以 4 亿美 元 的 价格 所 收购 ， 其 产品 成 为 Adobe Digital 
Market Suite 中 的 一 部 分 ， 称 为 Adobe AdLens。 收 购 时 ，EF 每 年 管理 着 
6 亿美 元 以 上 的 搜索 引擎 广告 预算 以 及 超过 4000 万 的 搜索 关键 词 ， 平 均 
日 为 每 个 客户 投放 40000 个 以 上 的 竞价 。 

从 EF 这 家 公司 的 名 称 就 可 以 大 致 了 解 到 其 技术 方向 ， 他 们 的 业务 
是 通过 关键 词 选择 和 出 价 为 搜索 广告 主 提供 大 量 关 键 词 情形 下 的 ROI 
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优化 。EF 采用 是 金融 领域 的 投资 组 合 (portfolio selection) 理论 中 方法 
来 解决 这 两 个 问题 ， 而 efficient frontier 也 是 这 一 金融 领域 中 的 术语 。 这 
一 问题 是 通过 计算 的 方法 确定 一 个 投资 组 合 中 各 个 品种 的 投资 比例 ， 

以 达到 期 户 收 益 最 优 情况 下 风险 最 小 的 理论 。 在 各 个 投资 期 望 收益 水 


平 下 ， 相 应 的 最 小 组 合 风 险 对 应 的 曲线 就 称 为 efficient frontier ° 
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图 5-11 SEM 中 的 efficient frontier 示 意 
如 果 将 搜索 广告 里 的 标的 物 ， 即 关键 词 ， 类 比 于 股票 ， 那 么 在 一 
定 预 算 的 限制 下 分 配 各 个 关键 词 上 的 投入 以 求 达到 整体 ROI 的 最 优 ， 从 
框架 上 看 非常 类 似 于 上 述 的 投资 组 合 问 题 。 因 此 ，EF 公 司 按照 这 一 思 
路 ， 将 量化 金融 里 的 投资 组 合理 论 与 计算 广告 技术 结合 起 来 ， 创 造 性 


地 发 展 出 了 大 规模 的 关键 词 出 价 优化 技术 。 图 5-11 中 给 出 了 efficient 
frontier 的 一 个 示例 ， 图 中 每 个 点 代表 一 个 广告 投放 设置 ， 即 关键 词组 
合 及 其 出 价 ， 而 每 一 个 组 合 也 就 对 应 了 一 个 收入 和 成 本 。 将 各 成 本 对 
应 的 最 高 收入 的 投放 设置 连接 起 来 ， 就 构成 了 efficient frontier 曲 线 。 找 
到 这 条 efficient ffrontier 曲 线 后 ， 给 定 广告 主 的 预算 ， 就 可 以 找到 最 佳 的 
投放 策略 。 在 可 选 的 关键 词 数 量 很 大 时 ， 投 放 设 置 的 集合 规模 非常 
大 ， 再 加 上 搜索 引擎 非 实 时 的 数据 反馈 ， 可 以 想见 此 优化 问题 的 困难 
程度 。 

广告 主 优化 广告 投放 收益 的 问题 其 实 比 优化 股票 收益 还 要 复杂 。 
因为 广告 主 的 收益 就 是 ROI， 而 无 论 是 估计 点 击 率 还 是 估计 点 击 价值 ， 
都 严重 依赖 于 数据 。 因 此 ， 这 方面 数据 的 积累 实际 上 才 是 EF 最 核心 的 
竞争 力 。 为 了 获得 更 多 的 数据 来 强化 其 竞争 力 ， 它 被 Adobe 旗 下 的 
Omniture 收购 了 也 符合 逻辑 ， 因 为 Omniture 是 专门 提供 网 站 分 析 工具 
的 公司 ， 积 累 了 大 量 的 网 站 行为 数据 ， 这 对 于 优化 ROI 来 说 非常 有 价 
值 。 

除了 SEM, Adobe AdLens 也 开展 了 Facebook 等 展示 广告 优化 业 
务 ， 因 为 其 技术 对 于 展示 广告 、 搜 索 广告 来 说 具有 通用 性 一 一 从 广告 
网 络 的 产品 角度 看 ， 二 者 的 本 质 是 相通 的 。 


5.5 竞价 广告 与 合约 广告 的 比较 


在 了 解 了 苋 价 、 合 约 这 两 类 主要 的 广告 交易 方式 后 ， 我 们 来 侧 要 
对 比 一 下 它们 的 优 缺 点 。 

从 供给 方 或 广告 市 场 方 来 看 ， 合 约 广告 和 竞价 广告 的 对 比 可 以 类 
比 于 计划 经 济 和 市 场 经 济 的 区 别 。 在 合约 广告 的 情况 下 ， 所 有 量 的 保 
证 和 质 的 优化 部 是 由 媒体 方 的 广告 投放 机 来 统一 完成 ， 而 在 竞价 广告 
的 情况 下 ， 市 场 只 人 负 贡 制定 竞价 和 收费 的 规则 ， 而 各 广告 主 量 的 保证 
完全 采用 市 场 竞 争 的 方式 来 完成 。 在 这 种 情况 下 ， 市 场 方 需要 仔细 设 
计 安 观 竞 争 机 制 ， 但 是 不 一 定 需要 实现 象 合约 广 告 那 样 的 交易 级 别 的 
计划 调度 。 

从 需求 端 来 看 ， 合 约 广告 的 采 买 方式 对 广告 主 来 说 缺乏 透明 性 ， 
唯一 能 做 的 就 是 在 合约 的 层面 预 完 约定 好 一 些 最 关心 的 利益 条 球 ， 但 
是 很 难 进行 深入 的 优化 。 不 过 ， 合 约 的 采 买 方式 也 有 一 定 的 好 处 ， 特 
别 是 对 量 的 保证 可 以 有 预 完 的 约定 ， 这 对 于 品牌 性 质 较 强 的 广告 活动 
来 说 比较 有 意义 的 。 

在 竞价 广告 中 ， 供 给 方 和 广告 主 的 约定 比较 松散 : 首先 ， 供 给 方 
不 再 向 广告 主 承 诸 广 告 投放 量 ;， 与 此 相对 应 ， 点 击 单价 由 广告 主 目 行 
决定 。 这 样 的 交易 逻辑 使 得 广告 合同 由 甫 先 确 保 量 的 结构 变 成 了 自 先 
确保 持 位 成 本 的 结构 。 这 实际 上 是 非常 单 命 性 的 变化 ， 它 使 得 广告 市 
场 产 生 了 以 下 三 个 有 利于 大 幅 提高 广告 效果 的 发 展 趋势 。 

(1) 非常 精细 的 受众 定向 可 以 被 无 障碍 地 使 用 在 交易 中 ， 而 这 是 
展示 量 合约 广告 很 难 做 到 的 。 由 于 这 一 点 ， 市 场 的 效率 得 到 了 巨大 捉 
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(2) 大 量 的 中 小 广告 主 逐 渐 成 为 参与 竞价 的 主体 ， 这 使 得 市 场 的 
规模 得 到 了 快速 扩张 。 
(3) 与 合约 广告 相 比 ， 竞 价 广告 中 数据 的 价值 得 以 朝 显 ， 整 个 市 
场 开 始 以 数据 为 核心 来 组 织 和 运营 广告 产品 。 


5.6 延伸 思考 


1. 搜 索 广告 南 区 的 产品 策略 在 不 同 搜索 引擎 中 差别 很 大 ， 请 从 用 户 
产品 的 角度 出 发 ， 谈 谈 你 认为 合理 的 策略 。 

2 .在 网 址 导航 类 产品 的 销售 中 ， 往 往 采 取 按 月 线 下 竞价 然后 签订 广 
告 位 合约 的 模式 ， 这 属于 合约 广告 还 是 竞价 广告 ? 

3. 广 告 网 络 的 运营 的 关键 是 提高 市 场 的 流动 性 ， 即 广告 主 参与 竞价 
的 积极 性 。 为 了 提高 市 场 流动 性 ， 投 放 功能 、 受 众 定向 等 环节 有 哪些 
产品 思路 ? 
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第 6 章 程序 化 交易 广告 


在 线 广 告发 展 到 竞价 阶段 ， 可 以 说 基本 的 计算 格局 已 经 建立 ， 大 
多 数 重 要 的 产品 和 技术 问题 也 都 浮 出 水 面 并 得 到 研究 。 然 而 ， 随 着 需 
求 方 优化 效果 的 要 求 进一步 加 强 ， 广 告 网 络 在 产品 形态 上 已 经 无 法 完 
全 满足 需要 ， 而 市 场 的 发 展 方向 是 向 需求 方 彻 确 开放 。 有 具体 而 言 ， 除 
了 允许 广告 主 按照 已 经 定义 好 的 用 户 划 分 来 购买 ， 还 要 进一步 提供 广 
告 主 自行 选择 流量 和 在 每 次 展示 上 独立 出 价 的 功能 。 这 样 的 功能 ， 必 
然 要 求 询 价 、 出 价 和 竞价 在 展示 时 进行 ， 这 也 就 产生 了 以 实时 竞价 即 
RIB 为 核心 的 程序 化 交易 市 场 。 程 序 化 交易 产品 在 整体 产品 演进 过 程 中 
的 位 置 如 图 6-1 所 示 。 
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图 6-1 程序 化 交易 广告 产品 
RTB 的 产生 ， 使 得 广告 市 场 向 着 透明 的 比价 平台 的 方向 发 展 ， 这 
样 的 平台 就 是 广告 交易 平台 ， 即 ADX， 其 主要 特征 即 是 用 RTB 的 方式 
实时 得 到 广告 候选 ， 并 按照 其 出 价 简单 完成 投放 决策 。 与 广告 交易 平 
台 对 应 的 采 买 方 ， 我 们 称 为 需求 方 平台 即 DSP。 在 这 样 的 交易 市 场 中 ， 
需求 方 对 于 流量 的 选择 和 控制 能 力 达 到 了 极致 ， 因 此 其 技术 和 算法 的 
挑战 也 相当 大 ， 而 供给 方 则 变 成 了 简单 的 比较 平台 。 
从 需求 方 来 看 ， 定 制 化 的 用 户 划 分 能 力 使 得 广告 主 可 以 像 优化 上 自 
己 的 推荐 系统 那样 优化 广告 购买 ， 唯 一 的 区 别 是 这 个 推荐 系统 是 放 在 
站 外 的 。 出 价 需求 的 存在 和 广告 主 预 算 范 围 内 的 套利 要 求 DSP 具 备 点 


击 率 预 测 、 点 击 价值 人 计 、 流 量 预测 、 站 外 推荐 等 多 方面 的 运算 能 
力 。 除 了 站 外 推荐 ， 广 告 市 场 靳 的 发 展 趋势 是 根据 广告 主 提供 的 种 子 
用 户 ， 利 用 海量 的 媒体 数据 为 广告 主 找 到 行为 相似 的 潜在 用 户 。 这 样 
的 一 些 定向 方式 都 是 针对 (a, wu) 组 合 的 定制 化 用 户 划 分 ， 它 们 使 得 
在 线 广 告 的 受众 定向 精准 程度 达到 了 前 所 未 有 的 水 平 。 

在 需求 方 的 利益 得 到 了 充分 的 保证 以 后 ， 媒 体 的 变现 手段 也 发 生 
了 相应 的 变化 。 到 现在 为 止 ， 媒体 至 少 有 四 种 常用 的 广告 变现 选择 : 
担保 式 投 送 的 合约 售卖 方式 、 目 宫 广 告 网 络 、 托 管 给 其 他 广告 网 络 、 
通过 RIB 变 现 。 如 何 动态 地 选择 这 四 种 模式 中 变现 价值 最 高 的 那 种 ， 以 
最 大 化 媒体 收益 ， 这 是 供给 方面 临 的 市 场 需求 。 在 这 样 的 需求 驱动 
下 ， 产 生 了 供给 方 平台 这 样 的 完全 优化 媒体 利 丰 的 产品 。 

除了 看 得 见 的 交易 模式 的 改变 以 外 ，RTB 的 产生 和 发 展 实际 上 还 俊 
生 了 另外 一 个 更 加 重要 的 市 场 : 数据 加 工 和 交易 市 场 。 开 放 的 交易 模 
式 使 得 广告 主 可 以 目 由 地 使 用 各 种 数据 指导 投放 ， 而 RTB 过 程 又 为 附 
带 的 数据 传送 提供 了 天 然 的 基础 设施 。 因 此 ， 在 程序 化 交易 时 代 ， 数 
据 加 工 和 交易 规模 化 地 发 展 了 起 来 。 作 为 数据 加 工 与 交易 的 两 个 关键 
产品 : 数据 交易 平台 (data exchange) 和 数据 管理 平台 MP 分 别 从 第 三 
方 数据 和 第 一 方 数 据 入 手 ， 为 市 场 提供 了 有 价值 的 数据 源 或 数据 加 工 
服务 。 了 解 在 广告 中 的 数据 交易 逻辑， 对 于 各 行业 大 数据 变现 的 落地 
都 有 十 分 重要 的 指导 意义 。 


在 线 广 告 市 场 进入 到 这 个 阶段 以 后 ， 程 序 化 交易 的 方式 已 经 成 为 
举足轻重 的 力量 ， 它 使 得 整个 在 线 广告 市 场 越 来 越 向 着 数据 驱动 、 计 
算 导 向 的 方式 前 进 。 我 们 在 本 间 中 也 对 程序 化 交易 的 否 干 种 主要 方式 
以 及 对 应 的 供应 方 和 需求 方 产品 做 了 一 下 小 结 ， 并 与 合约 导向 的 优先 
销售 方式 进行 了 对 比 。 


6.1 实时 竞价 


我 们 先 来 直观 地 解释 一 下 为 什么 广告 交易 会 向 实时 竞价 的 方向 发 
展 。 竞 价 广告 网 络 中 的 受众 定向 虽然 可 以 很 精准 ， 但 是 还 是 会 有 一 些 
完成 不 了 的 场景 。 例 如 ， 某 广告 主 希 望 对 自己 的 流失 用 户 进行 一 次 广 
告 促 销 ， 或 某 广告 主 希 望 广告 平台 帮助 找到 与 其 用 户 类 似 的 潜在 用 
户 。 很 显然 ， 无 论 怎样 选择 在 广告 网 络 中 的 人 群 标签 ， 都 不 可 能 直接 
完成 上 述 的 任务 。 实 际 上 ， 这 两 个 任务 有 一 个 共同 的 特点 ， 即 我 们 在 
加 工人 群 标签 的 过 程 中 需要 利用 到 广告 主 的 数据 。 这 样 的 标签 称 为 定 
制 化 用 户 标签 (customized audience segmentation) ° 

利用 定制 化 标签 的 投放 在 广告 网 络 中 并 非 完 全 无 法 解决 : 对 于 最 
常见 的 重 定向 标签 ， 采 用 由 广告 网 络 在 广告 主 网 站 布设 代码 的 方式 也 
可 以 收集 人 群 和 投放 广告 ， 而 对 于 一 般 的 定制 化 标签 ， 也 可 以 采用 由 
广告 主 上 传 用 户 ID (cookie 或 移动 设备 ID) 集合 的 方案 ， 由 广告 网 络 
来 决策 和 投放 ， 如 Facebook 的 广告 网 络 就 提供 这 样 的 功能 。 不 过 ， 这 
样 的 方案 仍然 存在 着 很 多 问题 。 


(1) 定制 化 标签 可 能 的 选择 是 与 广告 主 的 量 级 成 正比 的 ， 将 这 些 
标签 集中 地 由 广告 平台 加 工 使 用 ， 显 然 是 一 个 低 效 的 解决 方案 。 

(2) 除了 定制 化 的 人 群 库 ， 需 求 方 往往 还 对 频次 、 时 间 、 地 域 等 
诸多 因素 有 综合 决策 的 需求 ， 而 简单 地 上 传 用 户 ID 集合 显然 无 法 达到 
这 样 的 目的 。 

(3) 简单 的 人 群 库 交互 无 法 做 到 精细 的 出 价 和 预算 控制 。 

因此 ， 采 用 广告 网 络 这 样 的 封闭 式 况 价 方案 是 无 法 规模 化 和 精细 
化 地 针对 定制 化 标签 进行 投放 的 。 什 么 样 的 解决 方案 才能 够 规模 化 
呢 ? 其 实 很 位 单 ， 只 要 把 况 价 过 程 开放 ， 在 广告 展示 时 由 需求 方 来 判 
断 征 否 需要 并 出 价 ， 束 可 以 解决 上 面 的 问题 ， 这 样 的 思路 就 产生 了 实 
时 竞价 。 因 此 ， 我 们 认为 : 

用 定制 化 标签 指导 广告 投放 征 实 时 更 价 的 关键 产品 目标 。 

实时 竞价 的 交易 方式 不 仅仅 解放 了 相关 的 效果 类 广告 需求 ， 也 为 
品牌 广告 创造 了 全 新 的 机 会 。 我 们 知道 ， 品 牌 广告 的 核心 在 于 其 人 群 
触及 策略 ， 但 无 论 在 展示 量 合约 广告 还 十 范 价 广告 网 络 中 ， 人 群 的 定 
义 方式 都 是 由 广告 平台 决定 ， 需 求 方 基本 没有 加 工 的 自由 。 然 而 ， 在 
实时 竞价 交易 中 ， 服 务 于 品牌 广告 主 的 DSP 可 以 根据 市 场 上 采 买 的 各 种 
数据 为 菏 个 特定 的 广告 主 加 工 特 有 的 人 群 ， 完 成 更 加 符合 其 市 场 策 略 
的 人 群 触及 。 因 此 ， 我 们 会 发 现 ， 品 牌 广告 的 预算 基本 上 没有 进入 苋 
价 广告 网 络 ， 但 十 现在 却 有 向 实时 竞价 转移 的 倾向 。 表 6-1 中 给 出 了 美 


国 整 体 RTB 市 场 的 规模 和 增长 数据 a， 从 该 数据 可 以 看 出 ，RTB 已 经 成 
为 展示 广告 市 场 非常 重要 的 一 部 分 ， 并 且 仍 在 高 速成 长 中 。 
表 6-1 美国 RTB 市 场 增长 情况 
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实时 竞价 流程 
实时 竞价 的 接口 可 以 分 成 两 个 过 程 ， 即 预 允 进行 的 将 ADX 与 DSP 
的 用 户 标识 对 应 起 来 的 cookie 映 射 (cookie mapping) 过 程 和 线 上 广告 
请 求 时 的 竞价 和 投放 过 程 ， 如 图 6-2 所 示 。 下 面 我 们 分 别 介绍 这 两 个 过 
程 。 
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图 6-2 实时 竞价 (RTB) 过 程 示 


(1) cookie 映 射 。 当 供给 和 需求 双方 都 可 以 得 到 同样 的 用 户 标识 
时 ， 实 时 竞价 并 不 是 总 需要 此 映射 过 程 。 但 是 ， 当 双方 能 够 得 到 的 用 
户 表示 不 同 ， 特 别 是 在 Web 环 境 下 根据 cookie 投 放 广 告 时 ， 需 要 一 个 预 
先 的 映射 过 程 。cookie 映 射 一 般 是 由 DSP 在 广告 主 网 站 上 发 起 ， 这 样 做 
的 原因 是 ， 一 般 情况 下 DSP 负 责 的 是 加 工 广告 主 定制 受众 标签 ， 因 而 
不 需要 对 所 有 用 户 都 建立 对 应 关系 。 这 一 过 程 又 可 以 细 分 为 以 下 两 个 
步骤 。 


步骤 1.1: 从 广告 主 网 站 向 DSP 服 务 器 发 起 cookie 映 射 请 求 。 
L 


步骤 1.2: DSPEADXJIRÓS ar [HB [si 5c Biicookie 4] » EH T cookie 
映射 这 项 专门 技术 的 应 用 范围 不 仅仅 限于 RTB， 我 们 将 在 第 14 革 介绍 实 
时 竞价 技术 时 对 其 进行 更 具体 的 讨论 。 
2) 广告 请 求 (adcall) 。 以 Web 投 放 环 境 为 例 ，RTB 的 广告 请 求 


> 
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可 以 分 为 以 下 三 个 步骤 。 
步骤 2.1: 用 户 浏览 媒体 网 站 。 
步骤 2.2: 媒体 网 站 通过 JavaScript 或 SDK 向 ADX 发 起 广告 请 求 。 
步骤 2.3: ADX 向 各 DSP 传送 URL 和 本 域名 cookie， 发 起 询 价 请 


K o DSP 根据 预先 做 好 的 cookie 映 射 查 出 对 应 的 已 方 cookie， 决 策 是 否 
参与 竞价 ， 如 果 参 与 ， 则 返回 自己 的 出 价 。 在 等 待 一 个 固定 的 时 间 片 
后 ，ADX 选 出 出 价 最 高 的 DSP 返 回 给 媒体 网 站 。 

步骤 2.4: 媒体 网 站 从 胜出 的 DSP 拿 到 广告 创意 并 展示 。 


其 中 步骤 2.2 和 步骤 2.3 可 以 合并 为 一 步 ， 即 DSP 同时 返回 出 价 和 
广告 创意 地 址 ， 由 ADX 返 回 给 媒体 。 这 样 做 的 好 处 是 减少 了 一 次 服务 
器 往返 ， 用 户 看 到 的 广告 延迟 也 会 减少 。 缺 点 是 ADX 可 以 获得 DSP 某 
个 广告 商 的 相关 受众 ， 因 而 存在 信息 泄露 风险 ， 不 太 符 合 ADX 中 立 市 
场 的 地 位 。 实 际 产 品 中 ， 这 两 种 方式 都 有 采用 。 在 应 用 内 广告 等 非 Web 
的 环境 下 ， 有 时 供给 方 和 需求 方 采用 同样 的 用 户 标识 ， 这 时 DSP 进 行 用 
户 对 应 的 操作 可 以 略 去 。 

实时 竞价 的 交易 方式 虽然 给 予 了 广告 主 最 大 的 流量 选择 空间 ， 也 
对 系统 提出 了 更 高 的 要 求 ， 并 且 带 来 了 下 面 一 些 实际 问 题 。 

(1) 每 次 展示 都 有 ADX 服 务 器 与 多 个 DSP 服 务 器 的 参与 ， 这 使 得 
服务 圳 与 市 视 成 本 大 大 增加 。 读 者 可 以 简单 计算 下 ， 假 设 每 个 广告 请 
求 包 的 大 小 是 1KB， 每 秒 产生 5000 个 广告 请 求 ， 在 将 每 个 广告 请 求 都 
发 给 10 个 DSP 的 情形 下 ， 需 要 的 带宽 就 将 达到 400 Mbits， 而 这 样 的 
数字 对 于 ADX 来 说 只 是 一 个 不 大 的 规模 。 

(2) 在 询 价 过 程 中 ，ADX 要 等 待 一 个 约定 好 的 时 间 片 (一般 情 况 
下 为 100 ms) ， 这 使 得 用 户 看 到 的 广告 延迟 增加 ， 对 CTR 有 负面 影 
啊 。 


(3) 原理 上 DSP 可 以 以 极 低 的 出 价 参与 竞价 ， 这 样 虽 不 能 获得 流 
量 ， 却 可 以 低 成 本 得 到 在 媒体 网 站 上 的 用 户 行为 数据 ， 这 里 存在 着 洪 
在 的 信息 泄露 风险 。 


RTB 的 接口 有 两 个 对 接 方 ， 在 ADX 方 实现 的 部 分 称 为 RTBD (RTB 
for Demand) ; 在 DSP 方 实现 的 部 分 称 为 RTBS (RTB for Supply) 
在 各 个 ADX 中 ，RTB 接口 的 细节 和 具体 参数 有 很 大 的 不 同 ， 显 然 这 对 
于 广告 主 从 不 同 的 ADX 中 统一 采 买 流量 是 不 利 的 。 为 了 解决 这 一 问 
题 ，IAB 经 过 充分 市 场 调研 与 企业 合作 ， 制 定 了 OpenRTB 的 接口 标 
准 ， 这 一 标准 涵盖 了 视频 、 无 线 、 文 字 、 横 幅 等 多 种 广告 形式 下 的 
RTB 问题 ， 并 已 经 为 一 些 ADX 所 采用 。 

需要 特别 说 明 一 点 ， 实 时 竞价 中 的 “实时 ”这 一 限定 ， 特 指 的 是 需 
求 方 实时 地 ， 也 就 是 在 每 一 次 展示 时 参与 广告 竞价， 而 供给 方 对 不 同 
告 实 时 比价 的 过 程 在 前 面 讲 到 的 一 般 竞价 广告 中 也 存在 。 因 此 ， 不 
要 把 搜索 广告 、 广 告 网 络 等 也 理解 成 实时 竞价 产品 。 


6.2 其 他 程序 化 交易 方式 


在 实时 竞价 产生 以 后 ， 广 告 区 易 越 来 越 多 地 依赖 机 融 间 在 线 的 协 
商 而 非 事先 约定 或 人 工 操作 完成 ， 这 样 的 交易 方式 称 为 程序 化 交易 。 
程序 化 交易 的 核心 目的 是 让 需求 方 能 够 目 由 地 选择 流量 和 出 价 。 除 了 
实时 竞价 以 外 ， 市 场 上 还 存在 若干 其 他 的 程序 化 交易 方式 ， 我 们 来 看 
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6.2.1 优选 
优选 比 实时 竞价 产生 要 早 ， 可 以 看 成 是 只 有 一 个 需求 方 的 程序 化 
交易 ， 其 交易 过 程 如 图 6-3 所 示 。 


媒体 网 站 | IIT] HR T 


是 否 需要 
此 次 展示 ? 
UP VUES 


图 6-3 优选 交易 过 程 示 意 

优选 方式 允许 单个 需求 方 按照 自己 的 意愿 来 挑选 流量 ， 但 是 又 可 
以 避免 复杂 的 竞价 过 程 。 这 个 过 程 主 要 有 以 下 五 个 步 又。 

(1) 用 户 浏览 媒体 网 站 。 

(2) 媒体 网 站 通过 JavaScript 代 码 或 SDK 向 供给 方 广告 投放 机 发 起 
广告 请 求 ; 这 里 的 供给 方 广告 投放 机 有 时 是 退 体 目 己 的 广告 投放 机 ， 
有 时 则 是 ADX 的 广告 投放 机 。 

(3) 供给 方 广告 投放 机 向 需求 方 的 广告 投放 机 发 起 请 求 ， 询 问 是 
人 否 需要 此 次 广告 展示 机 会 。 

(4) 需求 方 广告 投放 机 根据 自己 的 逻辑 判断 ， 如 果 需 要 此 次 展示 
机 会 ， 则 返回 相应 的 广告 创意 。 

(5) 需求 方 如 果 不 需要 此 次 展示 机 会 ， 则 通知 媒体 广告 投放 机 ， 
由 供给 方 广告 投放 机 从 自 有 广告 库 中 选择 合适 的 创意 返回 。 


优选 过 程 同 样 可 以 使 得 需求 方 自 由 地 挑选 流量 ， 因 此 也 是 一 种 程 
序 化 交易 方式 。 由 于 只 有 一 个 需求 方 参与 ， 媒 体 可 以 比较 容易 地 对 广 
告 的 质量 和 来 源 进 行 控 制 。 这 种 交易 一 般 按照 CPM 方式 结算 ， 由 于 没 
有 了 多 方 竞价 ， 又 有 选择 流量 的 便利 ， 往 往 要 约定 一 个 比 市 场 价 格 更 
高 的 CPM 单价 。 与 RTB 相 比 ， 优 选 的 一 个 缺点 是 决策 过 程 可 能 存在 比 
较 多 的 服务 器 往返 : 在 极端 情况 下 ， 需 要 三 次 服务 器 的 往返 才能 得 到 
最 后 的 广告 。 这 有 可 能 使 得 用 户 看 到 的 广告 延迟 增 大 ， 从 而 影响 广告 
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6.2.2 私有 市 场 


除了 实时 竞价 这 种 公开 的 市 场 拍卖 机 制 以 外 ， 有 时 媒体 为 了 保证 
广告 主 的 质量 ， 和 希望 将 拍卖 限制 在 一 些 被 邀请 需求 方 的 小 范围 内 。 这 
种 程序 化 交易 叫 作 私有 市 场 。 私 有 市 场 中 的 在 线 交 易 过 程 与 公开 的 实 
时 竞价 一 致 ， 在 此 不 再 资 述 。 

私有 市 场 可 以 说 兼顾 了 优选 与 实时 竞价 的 好 处 ， 首 先 ， 私 有 市 场 
与 优选 一 样 ， 是 一 种 邀请 制 而 非 公开 的 交易 方式 ， 因 此 广告 主 的 质量 
可 以 由 少量 被 邀请 需求 方 很 好 地 控制 ， 这 有 利于 确保 媒体 的 价值 不 受 
伤害 ; 其次， 在 被 邀请 需求 方 之 间 仍然 保留 了 竞价 了 关系 ， 有 利于 提 
升 媒体 的 变现 能 力 。 当 然 ， 与 实时 竞价 相 比 ， 这 两 点 主要 都 是 对 媒体 
有 利 ， 因 此 往往 是 大 型 优质 媒体 在 考虑 程序 化 交易 时 的 选择 。 另 外 ， 
这 也 将 使 得 更 多 的 优质 媒体 加 入 到 程序 化 交易 市 场 ， 反 过 来 可 以 促进 
品牌 广告 投放 的 程序 化 进程 。 


从 2014 年 开始 ， 私 有 市 场 在 整个 程序 化 交易 市 场 中 得 到 了 越 来 越 
多 的 重视 ， 以 DoubleClick Adx 为 代表 的 主流 ADX 都 在 大 力 加 强 私 有 市 
场 的 产品 和 服务 。 可 以 预见 ， 随 着 私有 市 场 与 公开 市 场 的 充分 发 展 与 
融合 ， 程 序 化 交易 能 在 效果 与 品牌 、 媒 体 利益 与 广告 主 利益 的 平衡 方 
面 变 得 越 来 越 成 熟 。 

随 着 优选 、 私 有 市 场 为 代表 的 一 些 交 易 方 式 的 产生 ， 程 序 化 交易 
的 产品 边界 变 得 有 些 模糊， 甚至 令 人 困惑 。IAB 在 其 报告 中 ， 根 据 库 存 
类 型 、 价 格 模式 这 两 个 关键 产品 特征 ， 把 市 场 上 与 程序 化 交易 相关 的 
交易 方式 分 成 四 类 ， 如 表 6-2 所 示 ， 以 便 大 家 遇 到 相关 的 市 场 术语 时 能 
够 了 解 其 本 质 。 需 要 说 明 的 是 ， 以 我 们 的 观点 来 看 ， 表 中 programmatic 
direct 这 类 担保 投 送 优化 (automated guaranteed) 交易 方式 实际 上 仅仅 
是 完成 了 固定 库存 上 的 受众 定向 和 效果 优化 ， 与 传统 需求 方 的 广告 投 
放 服 务 很 接近 ， 而 并 没有 机 器 决策 的 流量 选择 过 程 ， 是 否 应 该 归 在 程 
序 化 交易 之 中 ， 还 值得 商检 。 

表 6-2 IAB 总 结 的 程序 化 相关 交易 方式 


RAK DES E) 
担保 投 送 优化 programmatic direct， 

(automated guaranteed) programmatic premium 

非 预 留 定价 交易 preferred deals, private access, 
(unreserved fixed rate) first right of refusal 

EPA private marketplace, private auction, 
(invitation-only auction) closed auction, private access 

AREMA RTB (Real-Time Bidding) , 

(open auction) open exchange, open marketplace 


6.2.3 广告 式 谱 系 


我 们 已 经 介绍 了 在 线 广告 市 场 上 主流 的 交易 方式 ， 现 在 对 它们 做 
一 个 小 结 ， 如 图 6-4 所 示 。 


程序 化 交易 


半 程序 化 交易 优先 销售 


供给 方 RIBD PMP 


CPM CPT 


中 间 平 台 广告 交易 平台 


广告 投放 机 


需求 方 RIBS PMP 优先 
图 6-4 在 线 广告 主要 交易 方式 一 虹 


按时 间 段 和 广告 位 独占 式 的 售卖 以 及 展示 量 合约 的 售卖 是 销售 与 
客户 之 间 将 广告 投放 的 关键 要 求 约定 下 来 的 交易 方式 ， 在 其 中 人 的 因 
素 起 了 相当 大 的 作用 ， 不 过 这 种 售卖 一 般 来 说 由 于 能 满足 一 些 品牌 性 
需求 ， 溢 价 能 力也 比较 好 ， 在 高 质量 的 媒体 上 属于 优先 考虑 的 售卖 方 
式 ， 我 们 把 它们 称 为 优先 销售 (premium sale) 。 从 技术 层面 来 说 ， 优 
先 销售 整体 对 计算 的 要 求 不 算 特别 深入 ， 而 且 主 要 的 技术 集中 在 供给 
Jj 如 在 线 分 配 、 受 众 定 向 ) 。 

在 竞价 广告 网 络 的 市 场 形 态 下 ， 对 供给 方 而 言 ， 可 以 通过 将 广告 
位 直接 托管 给 ADN 的 方式 变现 ， 也 可 以 同时 使 用 给 多 个 广告 联盟 ， 按 
照 一 些 准则 或 计算 结果 灵活 地 对 不 同 的 流量 分 割 选择 不 同 的 ADN， 这 
称 为 网 络 优化 (network optimization) ， 我 们 在 下 文中 的 供给 方 平台 中 
还 会 讨论 。 对 需求 方 而 言 ， 则 存在 选择 合适 的 人 群 标签 并 合理 出 价 ， 
以 优化 整体 ROI 的 程序 交易 要 求 。 这 样 的 交易 方式 虽然 已 经 比较 依赖 计 
算 ， 但 是 双方 的 决策 并 非 实 时 完成 ， 效 率 还 没有 达到 最 高 。 我 们 把 这 
种 交易 方式 称 为 半 程 序 化 交易 。 

在 实时 竞价 的 环境 中 ， 程 序 交 易 的 过 程 变 得 更 加 简单 直接 ， 供 应 
方 的 RTBD 接口 和 需求 方 的 RTBS 接口 通过 ADX 直接 对 接 ， 并 完成 精 
细 的 流量 采 买 。 除 了 这 两 种 市 场 上 常见 的 程序 交易 结构 ， 上 面 介绍 的 
优选 和 私有 市 场 等 方式 也 越 来 越 多 地 在 市 场 上 呈现 。 我 们 在 图 6-4 中 列 
出 了 包括 优先 销售 和 程序 化 交易 等 各 种 在 线 广 告 主要 的 交易 方式 ， 供 
大 家 参考 。 


6.3 广告 交易 平台 


广告 交易 平台 ， 即 ADX， 有 是 程序 化 交易 时 代 的 关键 产品 ， 它 负责 
将 媒体 流量 以 拍卖 的 方式 售卖 给 DSP， 可 以 类 比 于 证 券 市 场 中 的 交易 
所 。 最 早 的 ADX 产 品 RightMedia 的 初 袁 是 在 纽约 的 一 些 广告 代理 公司 
之 间 交 换 剩余 流量 。 因 此 ， 早 期 的 RightMedia 并 不 采用 RTB， 而 是 采 
用 类 似 于 私有 市 场 和 托管 交易 的 方式 。 但 是 ， 这 种 私有 市 场 并 不 能 满 
足 大 量 长 尾 媒体 流量 交换 的 需求 ， 因 为 剩余 流量 只 有 按照 需求 方 最 精 
确 的 定向 方式 来 交换 ， 才 能 获得 最 高 的 价值 。 所 以 当 公 开 RTB 产 生 以 
后 ， 迅 速成 为 ADX 的 标 配 甚至 最 主要 的 功能 。 

ADX 的 产品 舍 略 较为 简单 ， 由 于 所 有 的 广告 竞价 都 是 实时 进行 ， 
因此 不 需要 保存 广告 库 ， 因 而 也 不 需要 广告 检索 流程 ， 排 序 过 程 也 非 
常 简 单 。 广 告 交 易 平 台中 需要 注意 的 产品 策略 ， 主 要 是 如 何 解决 给 多 
个 DSP 发 广告 请 求 市 来 的 市 宽 和 机 夷 成 本 的 上 升 。 这 一 问题 ， 我 们 称 
为 询 价 优化 (call out optimization) 。 询 价 优化 的 具体 技术 方案 ， 我 们 
将 在 后 文 的 技术 部 分 再 做 介绍 。 

ADX 一 般 为 CPM 结算 方式 ， 这 一 点 要 特别 说 明 一 下 。 我 们 前 文 
提 到 过 ， 展 示 量 合约 一 般 按 照 CPM 结算 ， 但 是 无 法 把 多 个 广告 位 放 进 
同一 合约 ， 而 广告 网 络 由 于 广告 位 复杂 ， 一 般 只 能 按照 CPC 结算 。 那 
么 为 什么 在 情况 与 广告 网 络 类 似 的 广告 交易 市 场 中 可 以 按照 CPM 结 
Ue? 这 里 的 逻辑 在 于 ， 实 时 竞价 中 三 告 决 俩 是 由 DSP 完 成 的 ， 而 且 对 每 
次 展示 都 可 以 得 到 广告 位 信息 。 因 此 ， 虽 然 各 个 广告 位 的 上 态 击 率 差 别 


很 大 ，DSP 还 是 可 以 目 行 精细 估计 点 击 率 ， 并 实时 计算 出 当前 展示 的 合 
理 eCPM。 并 且 ， 由 于 第 一 方 数据 在 程序 化 交易 中 的 广泛 使 用 ，DSP 对 
于 人 群 在 特定 广告 上 产生 的 效果 往往 能 够 佑 计 得 更 加 精细 。 因 此 ， 按 
照 CPM 结 算 ， 将 eCPM 整 体 的 估计 都 交 给 需求 方 是 比较 合适 的 市 场 分 
Te 


品 案例 
从 早期 以 托管 和 私有 交易 为 主 的 模式 ， 到 后 来 以 公开 交易 为 主 的 
模式 ，ADX 的 产品 演进 很 快 ， 我 们 将 以 RightMedia 和 DoubleClick Adx 
为 例 进行 介绍 。 


1.RightMedia 


rightmeaia 

RightMedia 是 美国 最 大 的 网 络 广告 交易 平台 之 一 。2007 年 ， 展 示 广 
告 占 美国 整个 在 线 广告 市 场 份额 的 四 分 之 三 。Yahool 斥资 6.8 亿 美元 收 
购 RightMedia (同年 Google 以 31 亿 美元 收购 DoubleClick) 。 收 购 以 后 ， 
Yahoo! 对 RightMedia 做 了 一 项 重要 的 改变 ， 将 其 变 成 了 私有 的 网 络 广 
告 交易 所 ， 不 再 为 小 网 站 提供 广告 位 拍卖 的 服务 。 

优质 媒体 硕 望 进入 网 络 广告 交易 来 消化 直销 的 品牌 广告 剩 下 的 广 
告 库存 ， 但 是 又 不 希望 失去 流量 的 控制 权 。 而 一 般 的 公开 交易 平台 面 
向 大 大 小 小 的 网 站 提供 交易 服务 ， 广 告 质量 参差 不 齐 ， 会 影响 媒体 的 
品牌 价值 。 因 此 ，Yahoo! 非常 重视 让 优质 媒体 进入 广告 生态 圈 的 策 
略 ， 希 望 把 RightMedia 打 造成 针对 高 端 媒 体 的 私有 广告 交易 平台 。 


虽然 能 建立 广告 主 天 系 ， 公 开交 易 的 RTB 市 场 上 的 竞价 对 优质 媒体 
有 时 有 失 公允 : 在 信息 对 称 ， 也 就 是 受众 的 信息 完全 被 DSP 知 晓 的 情况 
下 ，DSP 的 出 价 才 会 完全 合理 ; 而 在 信息 不 对 称 ， 例 如 ， 数 据 来 源 不 充 
分 的 情形 下 ， 一 个 高 端 用 户 访问 了 优质 媒体 ，DSP 可 能 并 不 知晓 ， 其 出 
价 对 于 优质 媒体 来 说 也 会 偏 低 。 如 果 优 质 媒 体 接 入 了 公开 交易 的 
ADX， 不 仅 媒体 品牌 将 被 淡化 ，ADX 的 品牌 价值 被 提高 ， 媒 体 也 将 会 
失去 控制 权 。 

综 上 考虑 ， 优 质 媒体 会 首选 提供 PMP 交易 的 平台 ， 这 样 既 能 控制 
流量 又 能 选择 控制 DSP 和 建立 广告 主 关系 ， 从 而 建立 媒体 品牌 。 事 实 
上 ，PMP 也 一 直 是 SSP 优 化 媒体 利益 的 显 彰 特性 。 只 是 近年 来 随 着 ADX 
逐渐 融合 了 SSP 的 特性 ， 这 两 类 交易 模式 在 产品 上 也 逐渐 融合 。 

由 于 近年 来 基于 公开 RTB 的 ADX 发 展 迅猛 ，RightMedia 的 业务 也 面 
临 着 很 大 的 挑战 ， 并 且 其 交易 架构 和 算法 都 存在 着 一 些 不 尽 合理 之 
Ah o Yahoo! E RRE E 2015 年 将 RightMedia 这 一 产品 下 线 ， 代 之 以 全 
新 的 广告 交易 产品 。 

2.DoubleClick ADX 
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20074E, Google 以 31 亿 美元 的 价格 收购 了 DoubleClick。 在 此 基础 
上 ， 发 布 了 其 广告 交易 平台 产品 DoubleClick ADX， 并 将 AdWords 和 
AdSense 接 入 。 其 中 ，AdSense 是 作为 一 个 广告 网 络 从 供给 端 接 入 的 , 
而 AdWords 则 作为 需求 方 接 入 。Google Adwords 的 广告 主 可 以 直接 进入 


ADX 的 平台 并 拥有 更 多 的 媒体 资源 ， 而 AdSense 的 发 布 商 们 也 将 拥有 更 
广泛 优质 的 广告 主 资源 。DoubleClick 作 为 一 个 ADX， 连 接 了 众多 广告 
网 络 和 DSP， 当 一 次 广告 展示 发 生 时 ，AdSense 和 AdWords 只 是 作为 其 
中 两 个 参与 者 而 已 ，AdWords 启 得 的 展示 并 不 一 定 在 AdSense 上 展示 ， 
在 AdSense 上 展示 的 广告 也 不 一 定 是 来 自 AdWords 的 。 

DoubleClick 提 供 的 是 一 个 完全 透明 ， 理 论 上 任何 DSP 都 可 以 对 任 
何 流量 竞价 的 公开 交易 市 场 。 媒 体 一 般 会 允许 一 些 或 所 有 需求 方 通过 
这 种 方式 接 入 他 们 的 流量 。 通 常 不 会 与 需求 方 产生 直接 交流 ， 媒 体 主 
可 以 在 完全 未 知 的 情况 下 参与 公开 市 场 流 量 竞拍 。 

DoubleClick 的 公开 透明 的 RTB 模 式 吸取 了 RightMeida 由 于 历史 问题 
带 来 的 一 些 设计 不 足 ， 在 其 ADX 的 拓扑 结构 设计 上 有 其 独到 之 处 。 
RightMedia 在 拓扑 结构 设计 上 ， 任 意 两 个 媒体 间 换 量 需 要 双方 签订 合 
同 ， 即 在 会 进行 换 量 的 媒体 间 连 边 ， 伴 随 着 换 量 媒体 的 增多 ， 市 点 之 
间 的 连接 是 任意 的 ， 没 有 规律 ， 融 来 了 设计 上 的 复杂 性 。DoubleClick 
采用 了 星 型 的 拓扑 结构 ， 媒 体 直接 换 量 需要 先 经 过 Google， 直 接 和 
Google 签 订 合 同 ， 这 么 做 一 方面 降低 了 ADX 模 式 的 复杂 性 ， 一 方面 将 
单纯 的 分 成 收益 拆 分 成 了 两 份 合同 里 的 收入 和 成 本 ， 也 增加 了 Google 
的 现金 流 。 

DoubleClick Adx 每 天 管理 着 全 球 数 百 亿 次 广告 展示 的 实时 竞价 ， 
在 中 国 市 场 也 是 重要 的 ADX 之 一 。 


6.4 需求 方 平台 


与 ADX 相 对 应 ， 以 RITB 方 式 购 买 广告 的 产品 形态 就 是 需求 方 平 
台 ， 即 DSP。 这 一 产品 的 核心 特征 有 两 个 :一 个 是 RTB 方 式 的 流量 购 
买 ， 男 一 个 是 需要 文 持 需 求 方 定制 化 的 用 户 划 分 。 这 两 个 核心 特征 其 
实 古 同一 问题 的 两 个 方面 为 了 能 够 按 需 求 方 定制 化 的 用 户 划分 采 买 
广告 ， 需 要 市 场 开放 竞价 接口 ， 而 如 果 仅 仅 根据 供给 方 定义 的 用 户 划 
分 来 采 天 ， 那 么 像 广告 网 络 那样 的 非 实 时 竞价 吏 够 了 。 

什么 是 定制 化 8 的 用 户 划分 呢 ? 从 受众 定向 的 角度 看 ， 那 些 形 如 t 
(a, u) 的 定向 方式 ， 即 与 广告 主 相关 的 定 辐 方 式 ， 就 是 定制 化 用 户 
划分 。 可 以 通过 两 个 例子 来 直观 地 理解 一 下 。 第 一 个 例子 ， 假 设 某 电 
商 网 站 准备 进行 一 次 面 问 其 老 客 户 的 广告 投放 ， 这 里 的 “ 老 客 户 ? 束 是 
一 种 定制 化 用 户 划 分 ， 显 然 只 有 该 电 商 目 己 才能 找到 这 个 用 户 群 ， 而 
任何 巡 体 或 广告 网 络 无 论 数 据 能 力 有 多 强 ， 也 无 法 加 工 出 这 样 的 标 
签 。 第 二 个 例子 ， 菏 银行 布 望 通过 广告 接触 到 目 己 信用 卡 的 光 在 客 
户 。 要 找到 这 些 潜在 客户 ， 我 们 需要 以 银行 现 有 的 客户 作为 基础 ， 分 
析 其 行为 和 人 口 属性 有 哪些 特征 ， 然 后 再 根据 这 些 特征 去 拓展 可 能 的 
潜在 客户 。 这 一 过 程 既 需要 需求 方 的 数据 ， 叉 需要 媒体 或 第 三 方 数 
据 ， 而 其 加 工 出 的 人 群 仍然 是 与 广告 主 相 关 的 ， 因 此 也 属于 定制 化 用 
Fors 

由 于 可 以 细 分 到 每 次 展示 的 粒度 来 决策 和 出 价 ， 这 使 得 需求 方 可 
以 向 一 个 推荐 系统 那样 精细 化 地 执行 广告 活动 ， 也 使 得 推荐 和 广告 这 
两 项 重要 的 互联 网 技术 找到 了 完美 的 契合 点 。 


6.4.1 需求 方 平 台 产 品 


DSP 的 广告 决策 过 程 (如 图 6-5 所 示 ) 与 广告 网 络 非常 相似 ， 同 样 
先 要 经 过 检索 、 排 序 、 定 价 几 个 阶段 ， 主 要 的 差别 是 完成 广告 选择 
后 ， 又 增加 了 出 价 的 步 又。 而 出 价 正定 DSP 的 关键 产品 策略 之 一 ， 因 
为 在 实时 竞价 环境 中 ， 出 价 直 接 决 定 着 DSP 的 流量 基本 单位 成 本 ， 当 然 
也 就 决定 着 利润 。 


检索 TET 定价 
图 6-5 需求 方 平台 广告 决策 过 程 示意 
DSP 与 广告 网 络 男 一 个 不 同 的 产品 集 略 问题 体现 在 受众 定 同 的 方式 
上 上。 在 广告 网 络 中 ， 主 流 的 定 同 方式 都 是 根据 第 二 方 数 据 加 工 的 标 
等 ; 但 是 在 DSP 中 ， 以 第 一 方 数据 为 核心 ， 结 合 第 二 方 或 第 三 方 数据 的 
定制 化 标签 ， 即 t (a, u) 的 定向 方式 ， 是 其 关注 的 重点 。 在 各 种 定制 
化 标签 中 ， 重 定向 和 look-alike (JAIE) 的 方法 具有 一 定 的 普 适 
性 ， 是 DSP 需 要 特别 重视 的 产品 策略 。 
下 面 我 们 来 讨论 下 DSP 中 这 两 个 关键 的 产品 策略 。 


6.4.2 出 价 策略 


在 广告 网 络 中 ， 我 们 估计 eCPM 的 目的 是 为 了 对 广告 排序 ， 而 绝对 
的 eCPM 值 并 不 需要 太 精 确 。 但 是 在 DSP 中 ， 由 于 每 次 展示 都 要 按 CPM 
向 ADX 报 价 ， 因 此 准确 地 估计 eCPM 非 常 关键 ， 这 也 成 为 DSP 出 价 策略 
的 基础 。 

DSP 直 觉 的 出 价 策略 比较 简单 : 只 要 eCPM 估计 足够 精准 ， 并 按 
照 此 值 出 价 即 可 。 由 于 ADX 一 般 也 是 按照 GSP 来 计 费 ， 这 样 的 策略 是 
可 以 确保 有 利润 空间 的 。 如 有 果 没 有 预算 的 限制 ， 那 么 这 样 的 出 价 策 略 
就 是 最 优 策略 了 。 

为 什么 预算 的 限制 使 得 情况 有 变化 了 呢 ? 图 6-6 中 的 曲线 是 某 实时 
竞价 市 场 的 成 交 价 在 一 天 内 随时 间 变 化 的 曲线 (bid landscape) 中 。 可 
以 发 现 ， 由 于 市 场 中 各 DSP 的 广告 主 、 预 算 及 出 价 的 变化 ， 这 一 曲线 不 
但 不 平滑 ， 甚 至 是 变化 非常 剧烈 。 在 这 样 的 市 场 中 ， 假 设 我 们 的 eCPM 
是 某 高 于 市 场 水 平 的 固定 值 ， 可 以 比较 两 种 出 价 策略 。 图 6-6 中 的 策略 
A， 由 于 eCPM 高 于 市 场 水 平 ， 可 以 对 所 有 询 价 按 eCPM 出 价 ， 这 样 可 以 
获得 所 有 流量 ， 直 至 当日 预算 消耗 完 。 图 6-6 中 的 策略 B， 我 们 选择 一 
些 市 价 较 低 的 流量 出 价 ， 获 得 这 些 流量 ， 直 至 当日 预算 消耗 完 。 很 显 
A, 采用 策略 B 我 们 付出 的 成 本 要 显著 低 于 策略 A， 当 然 也 就 能 获得 更 
高 的 利润 。 


时 间 


图 6-6 DSP 不 同 出 价 策略 

在 上 面 的 例子 中 ，DSP 优 化 的 出 价 策略 可 以 定性 地 描述 为 : 首先 ， 
通过 历史 的 观察 和 预测 得 到 市 价 的 曲线 ; 然后， 将 一 天 的 预算 分 配 到 
那些 市 价 较 低 的 流量 上 。 当 然 ， 实 际 情 况 要 更 加 复杂 ， 因 为 eCPM 也 会 
随 着 时 间 而 变化 ， 例 如 游戏 广告 在 休闲 时 间 的 eCPM 显 著 高 于 上 班 时 
间 。 于 是 我 们 希望 获得 的 并 不 是 市 价 较 低 的 流量 ， 而 是 eCPM 与 市 价 
的 比例 较 大 的 流量 。 因 此 ，DSP 的 出 价 策略 要 基于 两 条 曲线 ， 即 eCPM 
和 市 价 随 时 间 变 化 的 曲线 。 

当然 ， 除 了 在 时 间 轴 上 找 合适 的 出 价 区 间 ， 也 可 以 将 此 策略 拓展 
到 更 多 的 维度 上 。 例 如 ， 一 般 来 说 女性 用 户 流量 的 商业 价值 较 高 ， 市 
场 价 也 可 能 会 比较 高 ， 如 果 DSP 广 告 在 男女 用 户 的 eCPM 上 差别 不 大 ， 
甚至 在 男性 用 户 上 更 高 (如 游戏 ) ， 那 么 就 应 该 尽量 多 投放 男性 流 


量 ， 以 获得 更 高 的 利润 。 不 过 ， 加 入 更 多 维度 使 得 问题 变 得 复杂 了 很 
多 ， 而 且 其 他 因素 对 市 场 价 的 影响 没有 时 间 那 么 大 ， 因 此 ， 做 好 时 间 
轴 上 的 出 价 委 略 是 实践 中 最 关键 的 。 


重 定 同 是 在 线 广告 中 最 早产 生 ， 也 最 广泛 使 用 的 一 种 定制 化 标 
签 。 它 的 概念 很 简单 ， 即 把 那些 曾经 对 广告 主 服务 发 生 明 确 兴趣 的 用 
户 找 出 来 ， 回 他 们 投放 该 广告 主 的 广告 。 在 不 同 的 广告 类 型 上 ， 重 定 
向 主要 有 两 种 目的 。 

(1) 用 于 品牌 广告 。 当 用 户 已 经 选择 过 某 品 牌 的 服务 或 产品 后 ， 
如 有 果 在 比较 高 质量 的 媒体 上 看 到 该 品牌 的 广告 ， 他 会 进一步 肯定 自己 
决策 的 正确 性 ， 从 而 对 该 品牌 的 认 知 度 也 大 大 加 强 。 这 种 用 途 下 ， 应 
当 以 宣传 品牌 而 不 是 具体 产品 为 主要 诉求 。 

2) 用 于 效果 广告 。 当 用 户 曾经 考虑 过 某 种 产品 ， 但 没有 完成 最 
终 转化 ， 通 过 在 线 广告 将 这 个 用 户 找 回 ， 点 击 率 和 转化 率 都 会 明显 高 
于 平均 水 平 。 如 果 用 户 已 经 选择 了 该 产品 ， 那 么 可 以 利用 推荐 技术 为 
他 推送 相关 的 产品 广告 。 

重 定向 可 以 从 信息 来 源 和 使 用 信息 的 精细 程度 上 区 分 为 网 站 重 定 
向 、 个 性 化 重 定 同 和 搜索 重 定 同 ， 我 们 将 分 别 说 明 。 

1. 网 站 重 定 同 与 个 性 化 重 定 疝 

网 站 重 定向 (site retargeting) ， 即 将 在 一 段 时 间 内 到 达 过 广告 主 
网 站 的 用 户 作为 重 定 向 集合 。 这 样 的 重 定向 流量 其 eCPM 一般 来 说 要 


比 无 定向 流量 高 出 一 个 数量 级 ， 因 此 需要 尽 可 能 扩大 投放 量 。 在 媒体 
上 采 买 这 种 重 定 向 流量 时 ， 能 够 得 到 的 量 有 两 个 主要 影响 因素 ， 一 十 
广告 主 网 站 本 身 的 独立 访客 量 水 平 ， 二 是 这 些 访客 与 媒体 的 重合 程 
度 。 前 一 个 因素 没有 办 法 通过 广告 手段 扩大 ， 而 后 一 个 因素 则 要 求 尽 
可 能 多 地 通过 各 种 渠道 采 买 重 定 回 流量， 显然 DSP 是 合适 的 方式 。 

个 性 化 重 定向 (personalized retargeting) 是 网 站 重 定向 的 一 种 特 
例 。 对 重 定 回流 量 进行 深入 加 工 ， 按 照 品类 和 购买 阶段 等 因素 进行 创 
意 上 的 深度 个 性 化 ， 就 是 个 性 化 重 定 向 。 具 体 来 说 ,个 性 化 重 定向 可 
以 在 两 个 方面 深入 挖掘 : 一 是 对 于 处 于 不 同 购买 阶段 的 用 户 ， 采 用 合 
适 的 创意 推动 他 尽快 完成 转化 行为 ， 这 里 的 购买 阶段 包括 浏览 、 搜 
索 、 加 入 购物 车 等 ， 二 是 对 于 已 经 有 过 一 些 购 买 记录 的 用 户 ， 使 用 推 
荐 技术 向 其 展示 相关 的 商品 以 提升 二 次 购买 率 。 从 这 两 层 意 义 上 看 ， 
这 一 方法 与 推荐 有 非常 多 的 共通 之 处 : 以 广告 产品 的 视角 看 ， 我 们 称 
之 为 个 性 化 重 定 同 ; 而 从 推荐 产品 的 视角 看 ， 则 可 以 认为 是 一 种 站 外 
推荐 (off-site recommendation) ， 换 名 话说， 是 将 原来 广告 主 网 站 上 的 
推荐 模块 搬 到 了 站 外 。 

在 图 6-7 中 ， 我 们 给 出 了 个 性 化 重 定向 广告 的 一 个 示例 。 该 广告 投 
放 的 对 象 是 某 个 京东 商城 的 用 户 。 该 用 户 很 可 能 在 泵 东 商 城 天 注 过 某 
种 手机 商品 以 及 有 关 PHP 编 程 的 技术 书籍 。 因 此 ， 广 告 系统 根据 他 的 个 
性 化 购物 兴趣 ， 结 合 季 东 商 城 的 商品 库存 ， 为 其 推荐 了 相关 的 手机 和 
技术 书籍 。 可 以 想见 ， 这 样 的 广告 其 点 击 率 和 转化 率 都 会 比较 高 。 
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图 6-7 个 性 化 重 定 同 广 告示 例 
个 性 化 重 定向 与 传统 的 受众 定向 方 式 有 较 大 的 差别 ， 其 产品 有 以 
REPRE ° 
(1) 动态 创意 。 个 性 化 重 定向 的 核心 是 用 推荐 的 思路 实时 决定 展 


示 什 么 商品 。 由 于 广告 主 的 商品 数量 往往 相当 大 ， 因 此 显然 不 可 能 大 
所 有 的 商品 组 合 预 先 准备 好 创意 。 因 此 ， 动 态 创意 是 个 性 化 重 定向 最 
重要 的 文 持 技 术 ， 这 也 是 在 线 广告 朝 着 彻 确 个 性 化 、 动 态 化 方向 发 展 
迈 出 的 重要 一 步 。 

(2) 推荐 引 警 。 个 性 化 重 定向 可 以 看 作 是 站 外 推荐 。 不 过 与 站 内 
推荐 相 比 ， 它 有 一 些 不 同 之 处 。 首 先 ， 站 内 商品 页 上 的 推荐 主要 根据 
上 下 文 信息 来 进行 ， 而 站 外 推荐 则 是 根据 用 户 信息 来 进行 ， 另 外 ， 站 
内 推荐 由 于 是 发 生 在 某 个 特定 的 购买 环节 上 的 ， 因 而 往往 不 需要 根据 
用 户 的 购买 阶段 来 调整 创意 ， 而 站 外 推荐 这 么 做 则 非常 必要 。 

(3) 广告 主 商 品 库 存 实时 接口 。 对 于 站 外 的 商品 推荐 ， 如 果 用 户 
在 点 击 某 单 品 到 达 广 告 主 网 站 时 ， 发 现 该 商品 已 经 售 完 或 下 架 或 者 是 
价格 与 创意 上 的 宣传 不 符 ， 会 对 该 广告 主 的 品牌 形象 有 较 严 重 的 伤 
害 。 为 了 尽 可 能 避免 这 种 情况 的 发 生 ， 个 性 化 重 定向 服务 需要 提供 准 
实时 的 商品 库 接 口 ， 让 广告 主 可 以 及 时 地 将 库存 和 价格 信息 同步 过 
来 
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2. 搜 索 重 定 问 

搜索 重 定 向 (search retargeting) ， 即 将 搜索 过 与 广告 主 直接 相关 
的 关键 词 的 用 户 群 作为 重 定 向 集合 。 这 样 的 方式 也 可 以 获得 很 精准 的 
用 户 群 ， 其 绝对 量 也 要 高 于 网 站 重 定向 ， 不 过 对 于 非 主 要 搜索 引擎 提 
供 丙 来 说 ， 依 靠 搜 索 重 定向 能 窗 盖 的 人 群 比例 未 必 会 高 于 网 站 重 定 
He 

既然 搜索 重 定 同 使 用 的 征 搜索 引擎 的 第 二 方 数 据 ， 那 么 为 什么 也 
归 为 定制 化 标签 呢 ? 这 要 从 如 何 获得 搜索 重 定 癌 中 用 的 词 表 说 起 。 给 
一 次 广告 活动 确定 合适 的 搜索 重 定 疝 词 表 ， 一 般 来 说 有 以 下 三 种 思 
路 。 

(1) 人 工 根据 经 验 确定 词 表 。 

(2) 如 果 该 广告 主 同 时 也 在 做 SEM， 可 以 直接 采用 对 应 投放 的 关 
HK ° 

(3) 基于 广告 主流 量 统计 的 方法 ， 即 统计 广告 主 网 站 流量 中 从 搜 
索引 擎 来 的 流量 ， 将 其 中 频 度 较 高 的 关键 词 作为 搜索 重 定 辣 词 表 。 

其 中 ， 最 后 一 种 策略 在 实践 中 表现 出 来 两 方面 的 优势 ， 首先 ， 由 
于 是 根据 实际 流量 数据 统计 得 到 ， 效 果 往 往 比 其 他 方法 更 好 ;其 次 ， 
通过 在 广告 主 网 站 布置 代码 等 手段 得 到 第 一 方 数 据 后 ， 整 个 过 程 可 以 
上 自动化， 简便 易 行 。 因 此 ， 我 们 建议 的 首选 搜索 重 定向 策略 ， 是 第 三 
种 策略 ， 而 这 种 策略 需要 依赖 于 第 一 方 数 据 ， 因 此 也 是 一 种 定制 化 标 
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6.4.4 新 客 推荐 


重 定 辣 的 方式 虽然 精准 ， 但 是 量 受 到 极 大 的 限制 。 而 且 对 于 大 部 
分 广告 主 来 说 ， 除 了 对 老 用 户 狂 耕 细作 ， 他 们 更 希望 能 有 办 法 接触 到 
那些 “有 可 能 ”对 目 己 产品 发 生 兴 趣 的 潜在 用 户 。 对 于 那些 快速 成 长 期 
的 电 商 或 者 是 网 站 流量 并 不 大 的 线 下 业务 广告 商 (如 银行 、 汽 车 ) ， 
这 方面 的 需求 尤其 强烈 。 

“有 可 能 对 目 己 产品 发 生 兴 趣 ? 这 样 的 用 户 标 签 ， 从 目的 上 来 说 很 
明确 ， 但 从 做 法 上 来 说 比较 模糊 。 很 容易 想到 的 思路 是 这 样 : BHI A 
主根 据 目 己 的 第 一 方 数据 提供 一 部 分 种 子 用 户 ， 再 由 拥有 更 丰富 数据 
的 第 二 方 数据 的 广告 平台 分 析 这 些 用 户 网 络 行为 的 特征 ， 并 根据 这 些 
等 征 找到 具有 相似 特征 的 拓展 人 群 。 很 显然 ， 这 也 十 一 种 定制 化 用 户 
标签 。 这 样 的 标签 加 工 策略 称 为 新 客 推荐 ， 即 look-alike ° 

从 推荐 的 角度 来 看 look-alike， 可 以 认为 这 是 一 种 “新 客 推荐 ”的 方 
AS 重点 在 于 同 没 有 关注 广告 主 产 品 的 潜在 用 户 进 行 推广 。 当 然 ， 既 
然 古 推 荐 ， 束 不 是 漫 无 目的 的 搬 网 式 推广 。 为 外 ， 这 样 的 推荐 技术 ， 
考虑 的 是 没有 广告 主 站 内 行为 情况 下 的 推荐 ， 是 原 有 狭义 推荐 问题 的 
3 E ° 
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文 持 下 才 有 可 能 产生 价值 ， 并 且 由 于 它 涉及 第 一 方 数 据 和 第 三 方 数据 
的 获取 与 加 工 ， 在 技术 上 是 有 一 定 的 挑战 的 。 读 者 在 过 到 这 类 产品 
时 ， 要 特别 注意 从 数据 和 技术 方案 合理 性 的 角度 判断 其 真正 价值 。 不 


客气 地 说 ， 在 中 国 市 场 ，look-alike 这 个 词 已 经 一 定 程度 上 变 成 了 效果 
不 明 、 原 理解 释 不 清 的 定 辐 方 式 的 遮羞 布 ， 而 几乎 所 有 的 广告 产品 都 
声称 自己 有 此 项 能 力 ， 这 实在 可 以 称 为 中 国 的 "look-alike 乱 象 ”。 
6.4.5 产品 案例 

定制 化 用 户 划分 和 RTB 技 术 的 产生 催生 了 许多 以 技术 方式 优化 广告 
采 买 的 DSP 公 司 。 这 些 公 司 当 中 ， 有 些 以 CPM 采 买 并 优化 ROI 的 套利 
模式 为 主 ， 有 的 则 以 透明 的 采 买 和 效果 优化 功能 性 服务 为 主 ， 我 们 将 
对 这 两 种 类 型 的 DSP 分 别 举例 说 明 。 


1.Criteo 


Criteo 是 一 家 总 部 位 于 法 国 的 广告 技术 公司 。 从 其 历史 业务 来 看 ， 
Criteo 除 了 实时 竞价 ， 还 采用 优选 方式 采 买 流量 。 不 同 于 其 他 的 需求 方 
平台 ，Criteo 的 重点 产品 是 按照 个 性 化 重 定 加 方式 采 严 广告 。 其 核心 技 
术 也 就 是 前 面 介绍 的 三 项 : 动态 创意 、 推 荐 引 敬 和 广告 主 商品 库存 实 
时 接口 。 图 6-8 中 给 出 了 Criteo 个 性 化 重 定向 创意 的 几 个 例子 。 
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图 6-8 Criteo 个 性 化 重 定向 广告 示例 

Criteo 按 照 RTB 或 优选 的 方式 ， 以 CPM 方式 与 媒体 结算 ， 但 是 与 
广告 主 之 间 的 结算 完全 采用 CPC 方 式 ， 从 而 实现 套利 ， 并 且 也 比较 容 
易 被 效果 类 广告 主 接受 。 在 个 性 化 重 定向 的 方案 框架 内 ，Criteo 还 提供 
了 user、category、data 和 banner 四 个 维度 上 比较 灵活 的 优化 功能 ， 即 广 
告 主 可 以 根据 不 同 的 用 户 细 分 、 商 品种 类 、 具 体 数 据 和 创意 类 型 设置 
不 同 的 点 击 出 价 ， 从 而 达到 非常 精细 的 ROI 管 理 和 优化 的 目的 。 这 样 的 
显示 广告 运营 和 投 送 方式 ， 其 精细 程度 与 搜索 广告 有 相似 之 处 : 都 是 
在 非常 精准 的 流量 细 分 上 以 效果 为 导向 投放 广告 ， 并 且 能 够 在 非常 精 
细 的 粒度 上 控制 出 价 。 不 过 这 种 方式 对 于 展示 广告 来 说 有 一 些 先天 的 


缺点 : 个 性 化 重 定向 不 同 于 搜索 广告 ， 需 要 预先 在 广告 主 网 站 布置 跟 
踪 代 码 ， 这 使 得 新 广告 主 加 入 的 进程 变 得 大 为 复杂 。 因 此 ， 专 门 从 事 
个 性 化 重 定 向 的 公司 在 初期 会 面临 需求 不 足 的 问题 ， 并 且 和 需要 运营 记 
大 量 的 努力 和 效果 上 良好 的 记录 才能 逐步 改善 ， 而 Criteo 也 同样 经 历 了 
这 一 过 程 。 伴 随 着 Criteo 海 外 业务 的 拓展 ， 最 近 几 年 ，Criteo 收 入 增长 
良好 ，2012 年 收入 3.4 亿 美元 ，2013 年 营 收 5.6 亿 美元 ， 增 速达 到 了 
60% ° 


2.InviteMedia 


invite media 


InviteMedia 原 是 一 家 独立 的 DSP 公 司 ，2010 年 6 月 以 约 7 000 万 美元 
的 价格 被 Google 收 购 ， 现 已 整合 进 DoubleClick 的 广告 系列 产品 ， 并 改 
名 为 DoubleClick Bid Manager。 虽 然 Google 在 广告 产品 中 全 线 布局 ， 但 
InviteMedia 被 整合 后 仍然 保持 相对 独立 ， 和 代表 媒体 利益 的 
DoubleClick Adx 之 间 仍 然 是 相互 博弈 的 关系 。 

InviteMedia 是 广告 交易 市 场 上 的 先行 者 之 一 ， 其 业务 是 提供 比较 
透明 的 RTB 采 买 功能 ， 如 设 定 一 些 规则 和 优化 目标 ， 帮 广告 主 把 相关 
ADX 接 入 进来 并 从 中 收取 固定 比例 的 佣金 ， 布 望 借 此 方式 快速 拓展 广 

告 主 端的 影响 力 。 当 然 ， 随 着 业务 发 展 ， 现 在 也 正在 提供 越 来 越 深入 
的 采 买 ROI 优化 服务 。 同 时 伴随 着 2013 年 InviteMedia 将 域名 切换 到 
DoubleClick 的 域名 dc.com ，InviteMedia 不 再 需要 和 DoubleClick Adx 进 


行 cookie 映 喘 ， 减 少 了 因 cookie 映 里 这 来 的 损失 ， 从 而 提升 了 采 买 的 效 
率 和 最 终 投放 的 效果 。 

3. 聚 效 

cL 聚 效 广告 平台 
gi MediavDsP 

聚 效 是 从 MediaV 独 立 出 来 的 广告 技术 平台 产品 ， 是 国内 规模 最 大 
的 效果 类 DSP 之 一 。 严 格 来 说 ， 聚 效 是 一 个 ADN 和 DSP 温 合 的 产品 ， 也 
有 人 把 这 类 产品 称 为 DSPAN。 其 流量 中 既 有 通过 RIB 方 式 获 得 的 部 
分 ， 也 有 自 营 的 广告 网 络 ， 育 效 将 这 两 部 分 流量 按照 统一 的 人 群 划 
分 ， 并 按 CPC 竞 价 的 方式 售卖 给 广告 主 。 不 过 目前 ， 聚 效 也 在 进行 内 
部 流量 RTB 化 的 改造 ， 预 计 将 来 会 演变 成 由 一 个 ADX 承接 其 广告 网 络 
流量 ， 而 需求 方 则 完全 以 DSP 为 接口 的 模式 。 

作为 国内 最 早 的 自助 式 DSP 之 一 ， 聚 效 在 电 商 等 效果 类 行业 有 众 
多 的 用 户 ， 这 些 用 户 既 包括 淘宝 网 店 ， 也 包括 知名 的 电 商 平台 。 这 些 
广告 主 都 按照 CPC 进 行 出 价 和 结算 ， 聚 效 的 DSP 引 擎 会 预 估 每 一 次 流 
量 的 点 击 率 或 转化 率 ， 实 时 将 该 出 价 转换 成 CPM 报价 。 

聚 效 对 接 国内 的 主流 公开 ADX， 包 括 Google ADX、TANX、 腾 果 
等 ， 同 时 ， 聚 效 也 对 接 了 新 浪 、 搜 狐 、 优 酷 、 土 豆 、 网 易 、58 同 城 等 
大 型 网 站 的 私有 流量 。 因 此 ， 融 产品 形态 上 而 言 ， 聚 效 是 一 个 兼 具 公 
开交 易 和 私有 交易 功能 的 DSP， 也 能 够 为 不 同 诉求 的 广告 主 提供 相应 
的 流量 和 服务 。 同 时 ， 除 了 服务 大 型 电 商 以 外 ， 聚 效 还 服务 了 数 万 家 


的 中 小 广告 主 ， 并 通过 算法 和 数据 能 力 为 其 精准 地 找到 用 户 ， 这 成 为 
HIZ DEF ° 


我 们 再 来 看 看 在 程序 化 交易 产生 以 后 ， 供 给 方 的 综合 性 收益 优化 
方案 。 对 于 媒体 而 言 ， 无 需 把 全 部 流量 的 变现 都 放 在 一 种 交易 方式 
上 。 媒 体 既 可 以 通过 直接 销售 来 高 漆 价 地 售卖 品牌 广告 ， 也 可 以 综合 
使 用 各 种 程序 交易 方式 以 退 求 更 高 的 eCPM e 

参照 6.2 市 中 的 广告 交易 方式 谱系 ， 媒 体 的 统一 变现 平台 需要 这 样 
的 逻辑 。 当 广告 请 求 到 达 时 ， 首 先 检 查 优先 销售 的 订单 有 无 需求 ， 这 
包括 CPT 和 CPM 的 合约 。 如 果 有 需求 ， 按 照 优 先 级 和 在 线 分 配 的 方案 
完成 投放 ; 如 果 没 有 这 类 销售 合约 ， 则 进入 竞价 流程 。 竞 价 时 ， 从 自 
运营 广告 主 库 中 找 出 eCPM 较 高 的 ， 并 估算 可 供 调 用 的 若干 广告 网 络 的 
eCPM， 在 这 两 者 之 间 找 到 较 高 的 广告 候选 ， 再 以 此 作为 MRP， 通 过 
RTB 接 口 向 接 入 的 各 DSP 实 时 询 价 。 可 以 看 出 ， 在 这 样 的 逻辑 中 ， 广 告 
请 求 是 被 分 配 到 自 运营 广告 库 ， 还 是 其 他 广告 网 络 ， 或 者 是 DSP， 是 根 
据 他 们 的 收益 在 线 动态 决定 的 ， 这 样 的 方案 称 为 动态 分 配 (dynamic 
allocation) 。 对 应 的 产品 形态 就 叫 作 供给 方 平 台 (Supply Side 


Platform, SSP) œ 


6.5.1 供给 方 平台 产品 


SSP 中 多 种 广告 源 动态 分 配 的 决策 过 程 如 图 6-9 所 示 。 


图 6-9 动态 分 配 决 策 过 程 示意 
这 一 过 程 有 如 下 五 个 步骤 。 


(1) 从 自 有 广告 库 中 根据 当前 受众 标签 检索 合适 的 广告 候选 ， 并 
估计 每 个 广告 候选 的 eCPM 。 

(2) 排序 得 到 eCPM 最 高 的 广告 候选 以 及 相应 的 eCPM 值 r,、。 

(3) 同样 根据 环境 信息 和 受众 标签 估算 出 各 个 合作 的 广告 网 络 大 
致 的 eCPM ° 

(4) 排序 得 到 eCPM 最 高 的 广告 网 络 以 及 相应 的 ecCPM 值 


rMAX。 
(5) 以 max(rMAX,7MAX ) 为 底价 ， 通 过 RTB 接 口 向 各 个 合 
作 的 DSP 查 询 更 高 变现 价值 的 广告 。 
先进 行 本 地 广告 检索 和 eCPM 估计 再 进行 RTB 的 好 处 是 可 以 根据 
当前 展示 的 情况 动态 调整 RTB 的 底价 ， 而 当 底价 高 到 一 定 程度 时 ， 即 
可 以 略 去 RTB 的 过 程 ， 从 而 减轻 服务 器 的 负担 。 这 样 一 来 ， 此 过 程 既 
可 以 利用 RTB 带 来 的 大 量 广告 主 和 市 场 流动 性 ， 又 充分 利用 了 本 地 广 


告 库 抬 高 竞价 水 平 。 当 然 ， 这 里 介绍 的 动态 分 配 过 程 是 非常 概要 和 粗 
略 的 。 在 实际 的 媒体 变现 中 ， 除 了 按照 CPM 竞价 的 需求 ， 还 需要 处 理 
合约 广告 的 保 量 需求 ， 因 此 在 按 gCPM 排 序 之 前 ， 还 需要 有 一 个 对 合约 
广告 的 在 线 分 配 过 程 ， 并 对 那些 合约 广告 不 需要 的 量 再 进行 竞价 。 

SSP 涉 及 的 计算 问题 是 其 中 的 网 络 优化 问题 ， 即 对 某 次 展示 机 会 的 
(u, c) 对 N 个 候选 的 广告 网 络 估计 其 eCPM 以 优化 收益 。 由 于 此 时 
没有 有 具体 广告 的 信息 ， 因 此 只 能 做 粗略 的 估计 。 在 实践 策略 中 考虑 的 
因素 主要 有 两 个 : 一 个 是 广告 网 络 或 DSP 的 分 成 模式 和 比例 ; 男 一 个 是 
它们 各 自 的 广告 返回 率 。 同 时 ， 如 果 这 些 合作 方 本 身 集中 投放 某 种 行 
业 类 型 的 广告 ， 那 么 人 群 和 环境 标签 也 是 有 帮助 的 。 

6.5.2 产品 案例 

在 广告 网 络 时 代 ，SSP 产品 由 于 可 以 一 站 式 地 接 入 多 个 广告 网 
络 ， 对 媒体 来 说 价值 较 大 。 当 今 ， 随 着 程序 化 交易 的 发 展 ， 其 市 场 空 
间 有 所 减 小 ， 产 品 功 能 上 也 与 ADX 有 更 多 的 交友， 我 们 下 面 以 具体 的 
产品 来 说 明 。 

1.Admeld 


Admeld 


Admeld 的 创始 人 Michael Barrett 曾 经 在 美国 在 线 (AOL) 和 福克斯 
集团 (Fox) 担任 要 职 ， 所 以 Admeld 的 产品 从 一 开始 就 在 为 门户 网 站 设 
计 广 告 管理 功能 ， 优 化 媒体 利益 。 他 们 早期 的 客户 包括 TAOL ` FOX 


等 在 美国 具有 相当 流量 的 大 型 门户 型 网 站 。 从 2008 年 起 ， 一 直 在 网 络 
优化 、PMP 等 方向 上 引领 SSP 相 关 技术 和 产品 形态 的 发 展 。 

早年 Admeld 在 为 媒体 做 收益 管理 时 ， 接 入 的 主要 流量 并 不 只 是 来 
目 于 ADX 里 的 RIB 流 量 ， 主 要 是 来 自 于 各 大 ADN， 比 如 在 北美 市 场 就 
接 入 了 50 多 家 ADN， 换 名 话说 媒体 只 要 加 一 段 Admeld 的 代码 ， 束 可 
以 对 接 所 有 的 这 些 ADN， 这 极 大 地 方便 了 剩余 流量 的 变现 和 优化 。 在 
对 这 50 多 家 广告 网 络 做 网 络 优化 时 ， 如 前 所 述 ， 由 于 对 广告 网 络 自 己 
的 定向 方式 和 广告 库 不 是 特别 清楚 时 ， 反 而 是 使 用 广告 位 和 时 间 段 这 
样 的 基本 划分 比较 稳健 ， 所 以 主要 在 广告 位 维度 、 时 间 维 度 、 广 告 返 
回 率 以 及 分 成 比例 等 少数 维度 上 进行 eCPM 估计 和 流量 切 分 。 

Admeld 也 会 从 DMP 购 买 用 户 数据 ， 这 一 方面 为 了 自己 能 更 进一步 
深入 地 估计 各 广告 网 络 的 eCPM， 男 一 方面 也 方便 参与 范 价 的 各 DSP 了 
解 流量 质量 ， 从 而 刺激 DSP 的 竞价 价格 和 市 场 的 流动 性 。 

2011 年 被 Google 以 4 亿美 元 收购 后 ，Admeld 整合 了 DoubleClick 
的 DoubleClick for Publishers (DFP) 广告 管理 系统 中 。Google 收购 后 
能 获取 到 一 些 他 们 难以 取得 的 顶级 内 容 供应 商 的 流量 以 及 良好 的 媒体 
关系 ， 而 Admeld 的 SSP 相 关 技 术 也 被 整合 进 DFP 中 ， 完 善 了 Google 的 广 
告 生态 链 。 


2.Rubicon 


(UbICOA 


Rubicon 是 第 一 家 上 市 的 专注 于 供给 方 的 SSP 公 司 ， 默 多 克 的 新 闻 
集团 拥有 其 20% 的 股份 ， 新 闻 集 团 旗 下 的 数字 媒体 均 通 过 其 变现 ， 所 以 
Rubicon 拥 有 强大 的 媒体 资源 文 撑 其 业务 。 在 上 市 的 招股 书 中 ，Rubicon 
是 这 样 描述 其 客户 群 的 : 拥有 超过 和 500 家 数字 媒体 的 良好 关系 ， 包 括 
comScore 排 名 前 100 位 的 媒体 中 的 40%。 

伴随 着 产业 链 上 下 游 的 整合 ，Rubicon 也 逐渐 淡 去 了 SSP 的 标签 ， 
其 重点 宣传 的 产品 包括 SSP 产品 Seller Cloud ` ADX 产品 Advertising 


Automation Cloud ` DSP 产品 Buyer Cloud， 这 些 产 品 覆 盖 了 产业 链 的 
EP aH ° Æ ADXBJEA TD, Rubiconf A A Hir 40 亿 次 的 询 价 请 求 ， 宣 
称 与 Google 是 目前 最 大 的 两 家 ADX。 


6.6 数据 加 工 与 交易 


通过 前 面 的 讨论 我 们 知道 ， 要 提高 定向 的 精准 程度 与 人 群 覆 凑 
K, 技术 远 不 是 唯一 重要 的 因素 。 那 么 什么 才 是 决定 性 的 呢 ? 是 数据 
的 来 源 与 质量 。 这 是 正确 认识 精准 广告 业务 非常 重要 的 观点 。 为 了 强 
调 这 一 观点 ， 我 们 以 大 家 更 容易 理解 的 石油 加 工 工业 为 例 与 之 做 类 
比 ， 如 图 6-10 所 示 。 在 石油 工业 中 ， 从 油田 挖掘 出 的 原油 是 整 个 行业 
的 原材料 ， 炼 油 三 的 作用 是 把 这 一 原材料 加 工 成 汽油 等 燃料 ， 再 输送 
给 加 油 丫 这样 的 销售 终端 。 在 精准 广告 中 ， 可 以 把 用 户 的 行为 类 比 于 
石油 工业 中 的 原材料 ， 日 志 收 集 和 清洗 系统 的 作用 束 相 当 于 油田 的 挖 
抉 设备。 而 受众 定 癌 的 平台 束 可 以 类 比 于 炼油 三 ， 它 把 原油 ， 即 清洗 


过 的 日 志 ， 加 工 成 用 户 标签 ， 而 这 些 用 户 标 签 就 像 汽油 一 样 ， 是 可 以 
被 销售 和 使 用 。 而 传统 广告 中 起 关键 作用 的 广告 位 在 这 里 仅仅 变 成 了 
加 油 站 ， 负 责 完成 产品 消费 的 过 程 而 已 。 


用 户 标签 


原材料 i 
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如 何 正 确认 识 技术 在 精准 广告 业务 中 的 作用 呢 ? 从 上 面 的 类 比 可 
以 看 出 ， 技 术 的 地 位 相当 于 挖掘 设备 和 炼油 设备 ， 当 然 有 着 无 可 置疑 
的 重要 性 。 技 术 能 力 的 高 低 直 接 影 响 着 数据 采集 和 变现 的 有 效 性 。 不 
过 从 另 一 个 角度 说 ， 技 术 的 作用 也 不 能 被 过 分 伟大 。 巧 妇 难 为 无 米 之 
炊 ， 没 有 高 质量 的 原材料 ， 即 用 户 数据 ， 再 高 明 的 技术 也 没有 用 武之 
地 。 


既然 数据 本 身 有 这 样 根 本 性 的 作用 ， 其 至 从 某 种 意义 上 说 是 精准 
广告 市 场 的 核心 ， 那么 围绕 数据 本 身 的 加 工 与 交易 就 与 广告 的 投放 技 
术 一 样 令 人 瞩目 。 有 哪些 数据 是 对 精准 广告 业务 有 直接 贡献 的 呢 ? 我 
们 可 以 重点 关注 下 面 的 几 类 。 

(1) 用 户 标 识 。 对 广告 而 言 ， 如 何 确定 哪些 行为 来 自 于 同一 个 用 
户 是 非常 关键 的 问题 。 用 户 标识 对 于 行为 定向 的 重要 性 往往 容易 被 名 
视 。 实 际 上 ， 稳 定 精 确 的 用 户 身 份 就 像 是 一 串 0 前 面 的 那个 1 一 样 ， 对 
准确 界定 受众 和 利用 数据 至 关 重 要 。 无 论 能 拿 到 多 少 行为 数据 ， 如 果 
无 法 把 它们 与 投放 系统 联系 起 来 ， 这 些 数据 都 无 法 发 挥 作 用 。 

对 于 浏览 器 行为 ， 我 们 最 常 使 用 的 用 户 标识 是 cookie， 但 是 由 于 存 
在 同时 使 用 多 个 浏览 器 、cookie 过 期 或 用 户主 动 清除 cookie 的 情况 ， 这 
种 用 户 标 识 的 长 期 一 致 性 并 不 算 太 好 。 不 过 好 在 对 广告 来 说 ， 起 关键 
作用 的 还 是 用 户 近期 内 的 行为 ， 所 以 用 cookie 作为 用 户 标 识 还 是 有 效 
且 为 业界 广泛 采用 的 基础 方案 。 如 果 运 营 广 告 业务 的 域名 同时 提供 其 
他 有 永久 身份 的 服务 ， 如 电子 邮件 、SNS 等 ， 那 么 可 以 用 这 些 永久 身份 
找 回 过 期 或 被 清除 的 cookie， 这 样 用 户 身份 的 一 致 性 就 会 改善 。 当然 ， 
如 果 广 告 业务 域 名 和 用 永久 身份 服务 的 域名 不 同 ， 世 不 是 完全 没有 办 
法 ， 在 后 者 同意 的 前 提 下 ， 可 以 采用 cookie 映射 的 方法 来 对 应 彼此 的 
用 户 身份 ， 这 一 技术 的 细节 将 在 后 文 谈 到 广告 交易 的 技术 时 再 讨论 。 

在 移动 互联 的 情形 下 ，iOS 与 Android 在 应 用 内 广告 使 用 的 用 户 ID 
有 所 不 同 : 前 者 是 苹果 公司 设计 的 广告 专用 用 户 标识 符 (Identifier for 


Advertising，IDFA) ， 其 性 质 与 cookie 类 似 ; 而 后 者 没有 专门 的 广告 
用 户 ID ， 一 般 采 用 Android ID 或 IMEI (international mobile equipment 


identity) 号 等 标识 信息 。 

由 于 高 质量 的 用 户 标识 本 身 就 是 一 种 非常 有 价值 的 数据 ， 因 此 也 
是 可 以 在 市 场 交 换 和 售卖 的 。 

(2) 用 户 行为 。 业 界 通常 认为 ， 转 化 (conversion) 、 预 转化 
(pre-conversion) 、 搜 索 广 告 点 击 (sponsored search click) 、 展 示 广 
告 点 击 (adclick) 、 搜 索 点 击 (search click) 、 搜 索 (search) 、 分 享 
(share) ^ 页面 浏览 (page view) 、 广 告 浏览 (adview) 等 在 线 行为 
是 可 以 被 广泛 采集 并 且 对 于 受众 定 同 或 广告 决策 有 明确 作用 。 按 照 对 
效果 广告 的 有 效 性 分 类 ， 这 些 行为 可 以 分 为 决策 行为 、 主 动 行为 、 半 
主动 行为 和 被 动 行为 。 

决策 行为 主要 包括 转化 和 预 转化 。 这 些 都 是 在 广告 主 的 网 站 中 发 
生 的 行为 ， 往 往 对 应 着 非常 明确 的 用 户 兴 趣 。 例 如 在 电 商 网 站 上 ， 转 
化 就 对 应 着 最 后 的 下 单 ， 而 预 转化 对 应 下 单 前 的 搜索 、 浏 览 、 比 价 、 
加 入 购物 车 等 多 种 准备 工作 。 这 类 行为 的 价值 是 最 高 的 ， 但 是 也 是 供 
给 方 或 广告 平台 最 难得 到 的 。 根 据 广告 主 端的 数据 进行 重 定向 或 者 个 
性 化 重 定向 是 对 此 类 行为 最 直接 的 利用 。 在 行为 定向 中 ， 这 类 数据 虽 
然 量 不 大 ， 但 却 不 能 忽视 。 

主动 行为 主要 包括 广告 点 击 、 搜 索 和 搜索 点 击 。 这 一 组 行为 都 是 
用 户 在 网 络 上 在 明确 意图 支配 下 主动 产生 的 行为 ， 因 而 也 有 比较 丰富 


的 信息 量 。 其 中 的 广告 点 击 行为 一 般 来 说 量 不 大 ， 并 不 能 作为 定向 的 
主要 数据 来 源 。 而 搜索 行为 是 能 够 大 量 获 得 的 最 主要 的 主动 行为 ， 需 
要 特别 注意 控 据 利用 。 

半 主 动 行为 主要 包括 分 享 和 网 页 浏览 。 这 两 类 行为 都 是 用 户 在 目 
的 比较 弱 的 网 上 冲浪 过 程 中 产生 的 ， 因 此 ， 其 所 涉及 的 兴趣 领域 对 把 
握 用 户 信息 有 价值 ， 但 是 非常 细节 的 内 容 其 精准 程度 有 限 。 半 主动 行 
为 的 指导 意义 虽然 有 限 ， 但 是 其 数据 量 却 是 各 种 行为 中 最 大 的 。 

被 动 行为 主要 是 指 广告 浏览 。 厂 告 浏 览 闫 格 来 说 不 能 算 作 定 癌 的 
行为 依据 ， 但 是 由 于 其 频次 与 相应 类 别 的 广告 点 击 负 相关 ， 因 而 在 行 
为 定向 的 建 模 中 也 可 以 使 用 。 

(3) 人 口 属性 。 人 口 属性 本 身 是 常用 的 一 种 定向 标签 ， 因 此 其 数 
据 来 产 很 重要 。 一 般 来 说 ， 只 有 一 些 能 够 与 用 户 实名 身份 绑 定 的 服务 
可 以 得 到 此 信息 。 我 们 也 可 以 利用 网 络 行为 数据 进行 人 口 属性 标签 的 
预测 ， 但 是 这 样 做 的 准确 程度 一 般 都 很 有 限 ， 而 且 仍然 需要 一 些 标定 
的 数据 用 于 训练 。 对 于 某 些 人 口 属 性 ， 可 能 一 些 特别 的 信息 比较 容易 
给 出 准确 的 判定 ， 例 如 用 语音 服务 记录 的 声音 信号 ， 可 以 将 男女 区 分 
得 相当 准确 。 

(4) 地 理 位 置 。 地 理 位 置信 息 随 着 能 获得 的 精度 不 同 其 用 途 也 会 
有 相当 大 的 差异 。 如 果 只 能 根据 耳 进 行 映 射 ， 我 们 往往 只 能 拿 到 精确 
到 城市 级 别 的 地 理 位 置 ， 当 然 这 对 于 很 多 广告 投放 来 说 已 经 有 相当 的 
价值 。 而 在 移动 互联 环境 下 ，GPS 或 蜂 窜 可 以 提供 的 定位 往往 可 以 准 


确 到 几 百 米 的 范围 ， 这 就 使 得 hyper-local 的 区 域 广告 商 投 放 定 同 广告 
成 为 可 能 。 这 样 的 广告 定向 ， 对 于 餐饮 等 受 地 理 位 置 限制 极 大 的 线 下 
业务 广告 商 征 非常 有 价值 的 。 

(5) 社交 关系 。 社 交 网 络 上 的 关系 反映 了 人 与 人 之 间 的 联系 ， 也 
隐 含 了 一 种 联系 人 之 间 "“ 兴 趣 相似 ?的 合理 推测 。 因 此 ， 社 区 关系 可 以 
用 于 用 户 兴 趣 的 平滑 。 当 广告 系统 观察 到 某 个 人 的 行为 不 足 ， 无 法 进 
行 精准 的 行为 定向 时 ， 可 以 考虑 借鉴 其 社交 网 络 朋友 的 行为 和 兴趣 。 
比如 一 个 人 在 微 博 上 的 好 友 有 很 多 部 是 足球 爱好 者， 那么 可 以 猜测 他 
也 是 一 名 中 球 爱 好 着 。 虽 然 这 样 的 猜测 未 必 准 确 ， 但 只 要 统计 上 合 
理 ， 吏 会 对 广告 投放 效果 有 帮助 。 需 要 注意 ， 这 样 的 乎 谓 只 适用 于 那 
些 长 期 稳定 的 兴趣 ， 对 于 短 时 的 购买 兴趣 不 太 适 用 。 从 这 个 意义 上 来 
看 ， 强 关系 类 型 的 SNS 比 弱 关 系 的 SNS 有 优势 ， 关 注 人 群 比 被 关注 人 和 群 
的 信息 意义 更 大 。 

关于 以 上 各 类 行为 数据 对 广告 效果 的 意义 ， 有 两 条 基本 的 规律 : 
首先 ， 随 着 用 户主 动 意 图 的 提升 ， 相 应 的 行为 数据 信息 价值 也 随 之 增 
Au 其 次 ， 越 接近 转化 的 行为 ， 对 效果 广告 的 精准 指导 作用 越 强 。 把 
握 这 两 条 规律 有 助 于 大 家 判断 各 种 各 样 的 行为 数据 的 价值 。 不 过 读者 
不 要 起 记 ， 广 告 的 根本 目的 是 “ 低 成 本 地 接触 光 在 用 刻 ”。 如 琳 仅 仅 从 
转化 效 末 上 判断 行为 数据 的 作用 ， 会 发 现 徘 近 转化 的 行为 更 精准 ， 实 
际 上 是 因为 这 部 分 人 群 已 经 更 加 接近 于 决策 的 最 终 阶 段 ， 也 束 是 说 越 
发 不 是 “ 洪 在 用 户 ”。 因 此 ， 在 行为 定 同 这 个 问题 上 ， 不 能 单纯 追求 ROI 


或 者 转化 效果 ， 而 是 要 根据 广告 主 的 具体 的 人 群 接触 目标 来 平衡 效果 
TTE E o 
6.6.2 三 方 数据 划分 

广告 中 用 到 的 用 户 数 据 ， 根 据 其 来 源 的 不 同 可 以 分 为 第 一 方 数 
据 、 第 二 方 数据 和 第 三 方 数据 ， 如 图 6-11 所 示 。 一 般 我 们 说 的 第 一 方 
和 第 二 方 分 别 是 指 广 告 主 和 广告 平台 ， 而 不 直接 参与 广告 交易 的 其 他 
数据 提供 方 统称 为 第 三 方 。 在 广告 网 络 中 ， 主 要 使 用 第 二 方 数据 指导 
广告 投放 ; 而 在 实时 竞价 环境 下 ， 不 仅 第 一 方 数据 可 以 被 利用 ， 大 量 
第 三 方 数 据 的 加 工 和 交易 也 逐渐 发 展 起 来 。 虽 然 ， 一 般 情 况 下 第 一 方 
数据 的 量 较 小 ， 却 是 所 有 数据 的 灵魂 。 以 第 一 方 数据 为 基础 ， 用 好 第 
二 方 数据 和 第 三 方 数据 ， 是 实时 竞价 时 代 重 要 的 方法 论 。 


其 他 来 源 数据 
(第 三 方 数据 ) 


图 6-11 三 方 数 据 示意 


6.6.3 理 平台 


第 一 方 数 据 的 收集 和 加 工 是 广告 市 场 上 非常 重要 的 环节 。 不 过 对 
于 没有 这 方面 技术 积累 的 广告 主 而 言 ， 专 门 设 团队 进行 数据 加 工 是 没 
有 必要 的 。 因 此 ， 市 场 上 也 产生 了 专 从 事 此 业务 的 产品 ， 称 为 数据 管 
理 平台 即 DMP。DMP 有 下 面 儿 个 核心 的 产品 功能 。 

(1) 它 可 以 为 网 站 (可 以 是 媒体 也 可 以 是 广告 主 网 站 ) 提供 受众 
定向 功能 ， 并 将 得 到 的 用 户 标签 应 用 于 网 站 业务 。 在 这 一 过 程 中 ， 除 
了 加 工 一 些 通用 标签 ，DMP 还 需要 能 够 比较 灵活 地 按照 网 站 定义 的 用 
户 标签 来 加 工 受 从 人 群 。 

(2) 如 果 媒 体 网 站 授权 ，DMP 可 以 提供 接口 对 加 工 出 来 的 用 户 标 
签 进 行 变现 ， 并 与 网 站 进行 分 成 。 

(3) 广告 主 网 站 可 以 通过 DMP 与 广告 采 买 渠道 进行 更 方便 的 数 
据 对 接 。 这 一 点 可 以 通过 下 面 的 应 用 来 理解 。 假 如 某 广告 主 需 要 通过 
外 部 广告 平台 做 重 定 向 ， 那 么 需要 将 自己 的 用 户 和 集合 通过 某 种 技术 方 
式 通知 广告 平台 。 如 有 果 每 个 广告 平台 都 采用 在 广告 主 网 站 上 加 跟 踩 代 
码 的 方式 来 收集 用 户 ， 有 两 个 弊病 ， 一 是 多 个 广告 平台 同时 加 代码 ， 
有 可 能 使 页 面 变 得 太 重 ; 二 是 访客 的 积累 可 能 长 达 数 周 的 时 间 ， 这 使 
得 广告 平台 重 定向 的 效率 降低 。 如 果 由 DMP 唯 一 负责 广告 主 网 站 的 用 
户 积累 和 划分 ， 并 通过 数据 接口 的 方式 传送 给 广告 平台 ， 那 么 可 以 很 
大 程度 上 解决 上 述 问 题 。 

在 北美 的 在 线 广告 市 场 上 ， 有 不 少 以 DMP 类 似 业 务 为 主要 方向 的 
公司 。 比 较 有 代表 性 的 是 AudienceScience 。 


6.6.4 平台 


数据 交易 平台 (data exchange) 的 主要 产品 功能 是 聚合 各 种 来 源 的 
在 线 的 用 户 行为 数据 ， 加 工 成 有 价值 的 用 户 标签 ， 然 后 在 广告 市 场 上 
通过 售卖 这 些 标签 来 变现 。 数 据 交易 平台 与 数据 管理 平台 的 产品 边界 
并 不 是 泾 渭 分 明 。 一 般 来 说 ， 数 据 交易 平台 除了 聚合 成 型 的 用 户 标 
签 ， 也 都 会 提供 聚合 原始 行为 数据 自行 加 工 标 签 的 功能 ， 也 就 是 兼 有 具 
DMP 的 产品 功能 。 不 过 ， 数 据 交 易 平台 往往 是 按照 自己 的 逻辑 而 非 媒 
体 的 需求 来 制定 标签 体系 和 加 工 数据 ， 因 此 ， 可 以 认为 DMP 是 站 在 第 
一 方 数据 的 角度 提供 产品 ， 而 数据 交易 平台 主要 是 站 在 第 三 方 数据 的 
角度 提供 产品 。 

关于 数据 交易 的 方式 如 图 6-11 所 示 ， 一 般 是 通过 ADX 或 SSP 作 为 中 
转 来 完成 。 数 据 交易 平台 提供 的 各 种 用 户 标签 作为 ADX 的 一 个 辅助 产 
品 提供 给 各 DSP。 标 签 一 般 按 照 CPM 计 价 ，DSP 如 果 选 择 购 买 某 种 标 
签 ， 则 在 广告 询 价 的 过 程 中 ，ADX 将 本 次 请 求 的 用 户 标签 传 给 DSP, 
最 终 按照 DSP 实际 成 交 的 展示 量 乘 以 CPM 价格 作为 其 购买 数据 的 附 
加 费用 。 以 广告 交易 为 载体 进行 数据 交易 是 比较 合理 的 产品 方案 ， 这 
种 方案 有 一 些 具体 的 好 处 : 首先 ， 在 广告 请 求 上 附加 用 户 标签 ， 不 会 
带 来 额外 的 服务 开销 ; 其 次 ， 所 有 的 DSP、 数 据 提供 方 都 只 需要 与 
ADX 进 行 cookie 映 射 ， 这样 以 ADX 为 中 心 的 星 型 拓扑 结构 比 起 DSP 与 
数据 提供 方 直接 进行 cookie 映 里 的 拓扑 结构 显然 要 方便 得 多 。 


数据 管理 和 交易 产品 在 程序 化 交易 市 场 已 经 比较 普及 ， 但 是 在 中 
国 市 场 中 还 没有 形成 规模 。 究 其 原因 ， 宁 怕 与 中 国 存 在 着 大量 作 次 和 
流量 劫持 (参见 15.3 B) 等 灰色 低 成 本 渠道 不 无 关系 。 因 此 ， 我 们 将 
主要 关注 国际 市 场 中 比较 成 熟 的 数据 类 产品 ， 并 以 BlueKai 和 
AudienceScience 为 代表 。 


C bluekai 


我 们 先 介 绍 一 下 BlueKai 这 家 公司 的 发 展 历程 : 2007 年 年 末 ， 展 示 
广告 占 200 亿 美元 在 线 广告 市 场 的 75%。 同 年 ， 在 雅虎 6.8 亿 美元 投资 了 
RightMedia，Google 以 31 亿 美元 收购 了 DoubleClick 的 背景 下 ，BlueKai 
的 CEO Omar Tawakol 预 见 到 未 来 展示 广告 的 客户 需要 将 广告 精准 投放 
到 特定 的 消费 群体 ， 于 2008 年 建立 了 一 个 名 为 Data Exchange 的 数据 
库 ， 一 方面 让 中 小 网 站 提供 流量 、 会 员 资 料 等 信息 ， 另 一 方面 将 这 些 
言 息 加 工 后 销售 给 中 小 广告 主 。2009 年 BlueKai 启 动 了 分 析 服 务 ， 帮 助 
用 户 区 分 受众 购买 行为 。2011 年 ，BlueKai 收 购 Tracksimple， 加 强 了 自 
己 的 数据 分 析 能 力 ， 从 而 为 广告 主 提供 一 站 式 的 包括 数据 分 析 、 数 据 
购买 的 SaaS 服 务 。 近 年 来 ， 作 为 Data Exchange 和 DMP 的 领头 羊 ， 
BlueKai 开 创 和 推动 了 一 个 独立 DMP 时 代 ， 活 跃 用 户 数 超过 3 亿 ， 前 20 
位 的 广告 网 络 、 门 户 网 站 中 有 80% 在 使 用 BlueKai 的 数据 。 

BlueKai 作为 一 个 独立 DMP， 不 像 其 他 DMP 公司 开始 整合 DSP 
业务 ， 而 是 一 直 不 提供 媒体 的 竞价 采购 服务 。BlueKai 认为 ， 这 样 可 以 
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保持 DMP 的 中 立 性 ， 可 以 使 BlueKai 的 DMP 与 多 家 DSP 对 接合 作 。 
2014 年 2 月 ，BlueKai 被 Oracle 以 4 亿美 元 收购 。 作 为 BlueKai 的 收购 
Jj, Oracle 没有 媒体 购买 的 业务 ， 主 要 是 一 些 企业 级 的 市 场 营 销 管理 
服务 ， 因 此 与 BlueKai 的 独立 DMP 的 市 场 定 位 相符 合 。 作 为 独立 的 
DMP，BlueKai 收入 规模 并 不 大 ，2013 年 总 收入 仅 6400 万 美元 左右 。 

BlueKai 的 主要 业务 模式 是 聚合 大 量 中 小 媒体 的 有 价值 行为 数据 ， 
使 用 受众 定向 技术 为 用 户 打 上 标签 ， 并 对 外 售卖 标签 以 获取 收入 。 
BlueKai 通 过 数据 交易 获得 的 收入 ， 其 中 很 大 比例 还 将 返还 给 数据 提供 
方 。BlueKai 的 重点 放 在 汽车 网 站 、 旅 游 网 站 和 各 种 购物 网 站 上 ， 因 为 
这 些 网 站 背后 代表 着 某 一 个 同 质 性 较 高 的 族群 ， 与 这 些 主题 网 站 相关 
的 广告 主 ， 如 航空 公司 、 汽 车 厂商 等 ， 也 非常 需要 精准 营销 。 比 如 有 
一 家 售卖 服装 的 小 网 店 ， 它 有 自己 用 户 的 搜索 行为 和 购买 行为 ， 但 它 
的 数据 量 不 大 ， 不 值得 用 这 些 数 据 去 分 析 变 现 ，BlueKai 就 会 与 这 些 中 
小 网 站 合作 ， 通 过 汇聚 众多 中 小 网 站 的 用 户 资 料 和 行为 数据 ， 加 工 成 
受众 定向 标签 ， 通 过 Data Exchange 对 外 售卖 。 比 如 某 些 DSP 想 知道 用 
户 身 上 有 什么 标签 ， 而 它 又 没有 用 户 信息 ， 就 可 以 向 BlueKai 购 买 或 分 
成 ，BlueKai 青 向 网 站 分 成 。 

BlueKai 同 时 提供 面向 媒体 、 数 据 提 供 商 和 广告 主 的 一 系列 产品 ， 
包括 DMP、 数 据 交换 平台 (BlueKai Data Exchange) 以 及 数据 分 析 系 
充 。 这 几 项 产品 都 围绕 一 个 商业 目标 展开 ， 那 就 是 帮助 有 数据 变现 需 
求 的 参与 者 能 够 自由 、 灵 活 地 通过 技术 对 接 的 方式 与 广告 主 进行 交 
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易 。 对 于 媒体 或 者 其 他 拥有 数据 者 ， 可 以 通过 BlueKai Data Exchange 将 
自己 的 数据 公开 式 地 出 售 给 市 场 上 的 需求 方 ， 同 时 可 以 比较 自主 地 控 
制定 价 ， 对 于 广告 主 ， 可 以 通过 BlueKai 提 供 的 DMP 产 品 和 第 三 方 数据 
标签， 与 目 己 的 第 一 方 数据 结合 起 来 ， 对 目 己 的 人 群 进行 更 灵活 的 划 
分 ， 并 按 此 购买 广告 。BlueKai 在 其 中 所 扮演 的 核心 价值 在 于 ， 尽 管 单 
看 每 一 个 媒体 的 信息 都 不 具有 太 大 的 价值 ， 但 当 达 到 一 定 规模 之 后 ， 
BlueKai 按 照 自 己 的 受众 定向 技术 对 这 些 数据 进行 重新 分 类 ， 束 能 让 其 
强 含 的 商业 价值 得 以 显现 。 

通过 这 种 数据 交换 方式 ， 广 告 市 场 上 最 有 价值 的 数据 资源 被 强 活 
利用 了 。 数 据 拥 有 者 不 需要 直接 涉足 复杂 的 广告 业务 ， 也 可 以 对 数据 
进行 变现 ， 而 数据 需求 者 也 可 以 方便 地 找到 数据 购买 来 源 ， 以 快速 提 
高 自己 广告 投放 的 效果 。BlueKai 也 注意 到 了 隐私 的 问题 ， 它 提供 了 一 
MeO, APU SSI CURA EE, thay Dee tae Sea 
构 ，”。 而 实际 上 这 不 过 是 一 种 规避 风险 的 方式 ， 基 本 上 不 会 影响 到 
BlueKai 和 中 小 网 站 原本 的 收入 。 有 关 隐 私 方面 的 问题 ， 读 者 可 以 进 一 
步 参考 15.4 节 。 

Bluekai 提供 大 量 细 分 的 类 别 ， 它 有 着 开放 体系 上 的 标签 ， 如 “对 至 
洁 洗 发 水 感 兴趣 的 人 ”“ 想 去 日 本 旅游 的 人 ”， 这 些 非常 精细 类 目 对 于 要 
做 效果 广告 的 广告 主 来 说 非常 有 意义 ， 所 以 它 的 售 价 也 很 高 。 根 据 广 
告 主 使 用 目的 和 数据 来 源 的 不 同 ， 这 些 标签 又 分 成 如 下 的 儿 种 : 


Intent ^ B2B ^ Past Purchases ^ Geo/Demo ^ Interest/LifeStyle ^ Branded ^ 


Estimated Financial/Economic。 这 是 一 个 比较 典型 的 半 开 放 的 标签 体 
系 ， 其 中 的 Intent 部 分 非常 类 似 于 前 文中 的 兴趣 定向 体系 ， 这 部 分 是 由 
BlueKai 根 据 通 过 Data Exchange 收 集 的 用 户 行为 加 工 的 。 而 其 他 的 部 
分 ， 有 的 是 由 其 他 数据 提供 商 直 接 提供 ， 比 如 由 Bizo 提 供 的 B2B 标 签 ; 
也 有 的 是 根据 多 家 的 数据 融合 决策 而 成 ， 比 如 Demo/Geo 标 签 实际 上 融 
合 了 Bizo、DataLogix、Expedia 等 多 家 数据 提供 商 的 数据 源 。 

之 所 以 说 BlueKai 的 标签 体系 是 开放 式 的 ， 是 因为 它 会 根据 数据 的 
来 源 和 市 场 需求 不 断 拓 展 和 调整 标签 的 类 别 和 内 容 ， 力 求 能 够 满足 尽 
可 能 多 的 广告 主 的 特质 化 需求 。 表 6-3 中 列 出 了 BlueKai 主 要 的 几 种 标 
签 、 履 盖 用 户 量 和 主要 数据 来 源 。 

3&6-3 BlueKai 标签 体系 主要 类 别 


类 别 描述 数据 来 源 RARR 
Intent decr A LER P RU KH BlueKai Intent 160+MM 
B2B 职业 上 接近 基 种 需求 的 用 户 Bizo 90MM 


Past Purchase — ^ 根据 以 往 消 费 习 惯 判断 可 能 购买 某 产 品 的 用 户 Addthis Alliant 65+MM 

Geo/Demo 地 理 上 或 人 口 属性 上 上 接近 某 标签 的 用 户 | Bizo, Datalogix, Expedia 
Interest/LifeStyle | “可 能 豆 欢 某 种 商品 或 某 种 生活 风格 的 用 户 Forbes, 1360, IXI,... | 103+MM 
Qualified Demo 多 数据 源 上 达成 共识 验证 一 致 的 人 口 属性 多 数据 源 90--MM 


Estimated Financial | 根据 对 用 户 财务 状况 的 估计 作出 的 分 类 V12 
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m AudienceScience 

AudienceScience 是 广告 市 场 上 首先 明确 提出 受众 定向 这 一 概念 的 
公司 ， 并 且 长 期 专注 于 这 方面 的 数据 加 工 和 算法 建设 。 它 的 核心 业务 
包括 以 下 两 方面 。 

(1) 主要 提供 面向 publish 的 数据 加 工 服务 。 比 如 《纽约 时 报 》 
(New York Times) 自己 有 很 多 用 户 ， 也 有 很 多 在 线 数据 ， 但 很 显然 它 
的 核心 业务 不 是 做 广告 ， 也 不 是 做 数据 加 工 ， 它 更 愿意 把 数据 交 给 
AudienceScience, AudienceScience 帮 它 加 工 一 些 有 意义 的 用 户 标签 ， 
比如 财经 类 用 户 、 体 育 类 用 户 。New York Times 的 BI 系 统 可 以 用 这 些 标 
签 分 析 哪 些 用 户 对 哪些 内 容 感 兴趣 ， 应 该 如 何 优化 内 容 。 

(2) AudienceScience 还 直接 运营 一 个 效果 广告 网 络 ， 帮 助 广告 主 
进行 投放 管理 和 优化 ， 这 里 就 用 到 了 它 分 析 得 到 的 用 户 标签 。 

就 其 数据 聚合 和 收入 分 成 的 模式 来 说 ，AudienceScience 与 BlueKai 
有 很 多 相似 之 处 。 两 者 主要 的 区 别 是 ，AudienceScience 并 不 通过 售卖 
标签 来 获得 收入 ， 而 是 仅 供 委托 他 们 优化 效果 的 广告 商 使 用 ， 即 通过 
运营 一 个 自 有 的 广告 网 络 来 变现 ， 使 用 标签 创造 的 营 收 按照 一 定 比 例 
跟 提 供 数据 的 媒体 分 成 。 这 样 做 的 原因 是 AudienceScience 认 为 数据 加 
工业 务 在 扣除 媒体 分 成 以 后 利润 空间 太 小 ， 而 自 营 广告 网 络 有 可 能 获 
得 更 大 的 套利 空间 。 

AudienceScience 其 具体 的 商业 流程 是 :网 站 (可 以 是 广告 主 或 媒 
体 网 站 ) 先 把 自己 的 流量 托管 给 AudienceScience ， 并 付 给 


AudienceScience 一 定 的 技术 服务 费 ，AudienceScience 把 数据 加 工 成 标 
签 ， 首 先 提供 给 网 站 用 以 优化 它 的 流量 和 用 户 体验 。 同 时 ， 它 在 自己 
的 广告 网 络 中 对 这 些 数 据 进行 变现 ， 变 现 的 数据 过 来 又 可 以 与 媒体 分 
成 o 

随 着 近年 来 RTB 模式 的 发 展 ，AudienceScience 也 逐渐 从 自 营 广告 
网 络 向 整合 的 DMP/DSP 的 方向 发 展 ， 因 为 不 同 于 BlueKai 是 作为 第 三 
方 的 数据 提供 者 ，AudienceScience 加 工 用 户 标签 的 目的 主要 就 是 为 了 
更 好 地 服务 目 己 的 广告 主 ， 其 为 了 优化 广告 主 需 求 方 的 利益 ， 融 合 了 
DMP 的 数据 来 指导 DSP 的 投放 效果 也 是 自然 的 选择 。 


6.7 在 线 广告 产品 交互 关系 


本 章 系 统 性 地 讨论 了 在 线 广 告 的 各 种 交易 方式 。 在 实际 的 广告 市 
场 中 ， 这 些 交 易 方 式 又 是 怎样 通过 具体 的 产品 联系 起 来 的 呢 ? 图 6-12 示 
意 性 地 表示 了 在 线 广告 市 场 各 种 产品 的 交互 关系 。 从 媒体 角度 来 看 ， 
有 以 下 三 种 产品 可 以 帮助 其 变现 流量 。 

(1) 可 以 将 广告 位 托管 给 广告 网 络 ， 由 广告 网 络 决策 广告 投放 ， 
从 赚 取 分 成 ， 如 图 6-12 中 的 “媒体 ”。 

(2) 可 以 将 广告 位 对 接 到 广告 交易 平台 ， 以 实时 竞价 的 方式 变 
现 ， 如 图 6-12 中 的 “媒体 ,”。 

(3) 也 可 以 将 广告 位 托管 给 SSP， 这 样 可 以 同时 对 接 多 个 广告 网 
络 和 PMP 接口 ， 并 按照 动态 分 配 的 逻辑 选择 变现 最 高 的 需求 方 (这 一 


产品 的 具体 情况 我 们 在 后 文 介 绍 ) ， 如 图 6-12 中 的 “媒体 ”。 


广告 代理 ， 广告 代理 ， 


图 6-12 在 线 广告 市 场 产 品 交 互 关 系 示 意 

对 于 广告 网 络 来 说 ， 有 以 下 两 种 需求 方 对 接 方式 。 

(1) 可 以 直接 与 需求 方 产品 TD 对 接 ， 通 过 后 者 将 广告 流量 售卖 给 
广告 主 ， 也 可 以 让 广告 主 上 自行 投放 。 

(2) 将 其 剩余 流量 再 导入 广告 交易 市 场 ， 以 实时 竞价 的 方式 变 
现 ， 此 种 方式 中 的 广告 网 络 充当 了 广告 交易 市 场 的 供给 方 。 

SSP 是 彻 原 代 表 媒 体 利益 的 产品 ， 因 此 ， 它 将 广告 网 络 、 广 告 交 易 
市 场 和 DSP 等 都 视 为 提供 预算 的 需求 方 ， 并 通过 统一 的 网 络 优化 功能 
来 管理 收入 和 确保 巡 体 的 用 户 体 验 。 


告 交易 平台 是 相对 比较 中 立 的 ， 在 供给 方 和 需求 方 之 间 提 供 公 
开 、 公 平 的 流量 交换 能 力 的 平台 产 品 。 广 告 区 易 乎 台 的 流量 可 以 来 目 
于 媒体 、 广 告 网 络 或 SSP， 而 需求 方 主要 对 接 DSP 进 行 变 现 ， 某 些 情况 
下 也 可 以 让 某 些 广告 网 络 以 优先 或 者 打 旗 的 方式 授 入 。 
从 需求 端 来 看 ， 无 论 是 广告 主 还 是 代理 公司 ， 主 要 通过 两 类 产品 
来 采 买 流量 : 一 是 面向 实时 竞价 的 DSP 产品 ， 二 是 面向 非 实 时 竞价 的 
ATD 产品 。 采 用 什么 样 的 产品 是 由 供给 方 的 产品 接口 确定 的 。 一 般 来 
说 ， 实 时 竞价 比较 适合 于 采 买 定制 化 的 人 群 ， 并 进行 深入 的 流量 优 
化 ; 非 实时 驶 价 则 适合 于 简单 、 低 成 本 的 一 些 通用 人 群 的 采 买 。 


6.8 延伸 思考 


1. 在 搜索 广告 中 引入 程序 化 交易 方式 ， 是 否 是 一 个 有 前 景 的 产品 方 
向 ? 

2. 重 定 癌 的 广告 效果 往往 显著 高 于 其 他 定向 方式 ， 不 过 这 部 分 是 由 
于 其 人 群 选择 的 特殊 性 ， 应 如 何 公允 地 评价 一 次 重 定 同 广告 投放 的 实 
际 增 量 效果 ? 

3. 数 据 的 交易 与 广告 的 交易 有 什么 不 同 特点 ， 应 如 何 借鉴 广告 范 价 
的 模式 发 展 数据 的 竞价 交易 ? 

4. 在 与 广告 相关 的 数据 交易 中 ， 数 据 采 取 限 量 或 不 限量 的 供应 集 
略 ， 会 对 流量 和 数据 的 市 场 价格 产生 什么 影响 ? 


本 书 由 l'ePUBw.COM | 整理 ，ePUBw.COM 提 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


通过 前 面 儿 章 的 产品 介绍 ， 我 们 了 解 了 计算 广告 从 合约 到 竞价 再 
到 程序 化 交易 的 产品 演进 路 线 。 可 以 说 ， 进 入 程序 化 交易 时 代 以 后 ， 
互联 网 广告 产业 多 方 参与 、 规 模 化 利用 流量 和 数据 的 整个 产品 体系 已 
经 逐渐 完善 。 广 告 从 依附 于 媒体 的 简单 变现 功能 已 经 进化 成 了 独立 的 
业务 体系 ， 在 互联 网 行业 中 的 地 位 举足轻重 。 但 是 从 另外 一 个 方面 来 
看 ， 广 告 毕 竟 是 离 不 开 用 户 产 品 的 。 目 前 的 广告 交易 体系 越 来 越 倾向 
于 直接 使 用 第 一 方 数据 和 第 三 方 数据 作 指 导 ， 在 独立 的 交易 环境 中 完 
成 投放 ， 而 广告 与 媒体 内 容 的 关系 则 在 一 定 程度 上 被 边 绿化 了 。 应 该 
说 ， 这 并 不 是 一 个 好 的 趋势 ， 与 内 容 基本 独立 的 广告 交易 必然 会 在 效 
果 和 用 户 体 验方 面 页 到 天 论 板 。 将 内 容 与 广告 决策 深度 融合 的 原生 广 
告 产 品 是 本 章 讨论 的 重点 ， 这 部 分 产品 在 整体 产品 演进 过 程 中 的 位 置 
如 图 7-1 所 示 。 
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图 7-1 原生 广告 产品 

需要 说 明 的 是 ， 迄 今 为 止 ， 原 生 广 告 没有 一 个 清晰 的 定义 。 实 际 
上 ， 从 软文 、 搜 索 广 告 到 社交 网 络 中 的 信息 流 广 告 都 有 一 些 原生 广告 
的 意味 ， 但 也 都 只 反映 了 原生 广告 的 一 个 侧面 。 应 该 说 所 有 将 商业 化 
内 容 与 非 商 业 化 内 容 统一 生产 或 混合 排序 的 产品 都 可 以 认为 与 原生 广 
告 有 关系 ， 这 样 的 产品 方向 经 常 被 称 为 内 容 即 广告 (content asad) ° 
我 们 也 会 介绍 几 种 常见 的 原生 广告 初级 产品 。 

必须 指出 的 是 ， 原 生 广 告 得 到 充分 的 重视 是 在 移动 互联 网 时 代 到 
来 以 后 。 这 是 因为 在 屏幕 较 小 的 移动 设备 环境 下 ， 独 立地 展示 和 运营 
广告 与 内 容 遇 到 了 巨大 的 挑战 。 于 是 ， 业 界 开 始 探讨 将 原生 广告 部 分 


代替 一 般 展示 广告 ， 提 高 移动 环境 下 广告 的 变现 能 力 。 实 际 上 ， 第 一 
个 真正 由 第 三 方 提供 的 平台 化 的 原生 广告 产品 也 产生 于 移动 互联 网 。 
因此 ， 从 移动 广告 的 角度 出 发 ， 我 们 更 能 深切 地 理解 原生 广告 产生 的 
关键 诉求 以 及 它 所 面临 的 主要 产品 挑战 。 

不 过 ， 与 内 容 结 合 的 原生 广告 如 何 能 够 规模 化 、 交 易 化 运 各 是 产 
品 面 临 的 一 个 环 手 的 挑战 。 根 据 现 在 市 场 上 的 产品 探索 ， 我 们 总 结 了 
一 些 原生 广告 交易 化 运营 的 关键 点 以 及 将 会 面临 的 主要 挑战 。 虽 然 原 
生 的 时 代 疝 未 到 来 ， 我 们 仍 希 望 与 大 家 一 起 展望 这 样 的 产品 形态 可 能 
会 对 互联 网 广告 ,特别 十 移动 互联 网 广告 ， 力 至 整个 移动 互联 网 生态 
市 来 的 变 音 性 影响 。 


7.1 原生 广告 相关 产品 


在 探讨 原生 广告 的 产品 关键 之 前 ， 我 们 先 来 看 一 下 市 场 上 早已 出 
现 的 几 种 内 容 与 广告 深度 结合 的 广告 产品 ， 目 的 是 对 这 个 问题 形成 一 
些 感性 认识 。 


7.1.1 f£ 告 


E 


言 息 流 广 告 起 源 于 社交 网 络 。2010 年 4 H, Twitter 发 布 
T “Promoted Tweets” 产 品 ， 在 其 信息 流 中 插入 商业 化 的 内 容 ， 如 图 7-2 
所 示 。 这 样 的 信息 流 广 告 后 来 也 被 其 他 的 社交 网 络 (如 Facebook ^ ft 
博 、QQ 空 间 等 ) 广泛 采用 。 信 息 流 广告 由 于 自然 地 出 现在 用 户 内 容 消 
费 的 主 路 径 上 ， 而 且 展 示 形 式 与 内 容 非 常 接近 ， 因 此 吸引 的 关注 比较 


有 效 ， 这 也 使 得 其 效果 比 一 般 展示 广告 有 较 大 的 提升 。 正 是 从 这 种 信 
告 开始 ， 大 家 开始 意识 到 ， 内 容 与 广告 的 有 机 融合 对 于 提升 广 
告 效果 十 分 有 效 ， 这 也 催生 了 对 于 原生 广告 系统 性 的 探讨 。 
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图 7-2 *Promoted Tweets” 信 息 流 广告 示例 

如 今 ， 信 息 流 广告 也 出 现在 一 些 非 社区 类 的 媒体 上 ， 如 Yahool 新 
首页 、 今 日 头条 等 。 适合 于 信息 流 广告 的 媒体 都 有 一 个 共同 特 
点 ， 即 信息 流 中 的 各 条 内 容 相关 性 并 不 强 。 在 这 种 情形 下 ， 揪 入 一 条 
商业 化 内 容 在 形式 上 不 会 显得 太 突 元 ， 用 户 体 验 也 会 较 好 。 如 傈 在 一 
些 垂直 媒体 的 信息 流 中 提供 广告 ， 则 需要 考虑 上 下 文 的 影响 ， 以 达到 
原生 的 目的 。 实 际 上 ， 在 社交 网 站 上 投放 信息 流 广告 时 ， 如 采 考 虑 与 
周围 内 容 的 相关 性 也 会 提升 一 些 效果 。 


社交 网 络 信息 流 中 的 内 容 是 根据 产生 时 间 排 序 的 ， 因 此 无 法 将 内 
容 与 广告 按 同 一 准则 排序 ， 一 般 是 将 广告 直接 放 在 固定 的 位 置 上 。 


7.1.2 


在 竞价 广告 产品 中 ， 我 们 重点 介绍 了 搜索 广告 ， 现 在 可 以 换 一 个 
视角 再 作 解 读 。 

搜索 广告 的 展示 形式 与 自然 搜索 结果 基本 一 致 ， 也 可 以 看 成 是 存 
在 于 同一 个 信息 流 当中 。 因 此 ， 它 的 高 变现 能 力也 部 分 地 源 于 这 种 类 
原生 的 产品 形式 。 必 外， 搜索 广告 的 另 一 个 特点 ， 即 用 一 个 明确 的 查 
询 来 触发 广告 ， 对 我 们 探索 原生 广告 也 很 有 启发， 要 想 真正 做 到 “内 容 
即 广告 ?»， 显 然 在 广告 决策 过 程 中 要 明确 考虑 用 户 当 前 的 任务 和 意图 ， 
并 直接 根据 这 些 来 触发 广告 。 

搜索 广告 与 内 容 的 混合 方式 有 两 种 ， 一 种 是 将 广告 在 固定 的 位 置 
上 展现 ， 男 一 种 是 将 广告 与 内 容 混 合 排列 在 一 起 。 当 然 ， 在 实际 的 搜 
索引 擎 中 ， 广 告 与 内 容 也 是 来 源 于 不 同 的 服务 ， 前 者 按照 eCPM HF 
序 ， 后 者 按照 相关 性 排序 ， 两 者 混合 的 规则 也 是 一 些 固定 的 逻辑 ， 并 
没有 实现 按 同 一 准则 的 统一 排序 。 应 该 说 ， 如 果 按 照 内 容 即 广告 的 思 
路 前 进 ， 那 么 在 搜索 引擎 中 ， 内 容 与 广告 按照 同一 准则 的 统一 排序 将 
会 古 一 个 有 价值 的 发 展 方向 。 


7.1.3 告 


在 这 种 广告 类 型 中 ， 内 容 本 号 就 是 为 了 委婉 地 宣传 某 种 产品 而 生 
产 的 。 很 多 网 站 的 内 容 营 销 实际 上 指 的 就 是 这 种 软文 广告 。 这 种 方式 
也 从 一 个 独特 的 角度 体现 了 “原生 ”的 意义 : 较 高 质量 的 软文 往往 让 读 
者 可 以 像 接受 普通 文章 一 样 接受 其 内 容 ， 因 而 宣传 效果 也 会 比较 好 。 
http://news.pedaily.cn/201410/20141021372531.shtml24 Hi T —2& E ZH ROS 
OC 38 ER ARE KA ARAMA: ~ER SERI EA QZ? ”请 大 家 参考 。 
不 过 这 种 软文 广告 的 生产 和 传播 过 程 很 难 被 标准 化 ， 往 往 只 适用 于 比 
较 大 的 品牌 广告 主 ， 不 是 产品 化 交易 的 对 象 ， 因 此 并 不 是 我 们 重点 讨 
论 的 广告 产品 。 

虽然 软文 本 寻 离 广告 产品 较 远 ， 不 过 也 给 我 们 提供 了 重要 的 启 
A: 在 内 容 的 生产 过 程 中 ， 应 该 同时 考虑 到 商业 化 的 可 能 。 虽 然 整 篇 
的 软文 生产 很 难 做 到 规模 化 ， 但 是 如 果 将 内 容 中 一 些 相对 标准 化 的 片 
段 变 成 商业 化 信息 如 何 呢 ? 显然 ， 这 个 方向 是 值得 探索 的 。 

7.1.4 联盟 

在 前 面 介 绍 广告 网 络 时 ， 我 们 提 到 了 一 种 联盟 (affiliate) 模式 ， 
即 由 媒体 从 广告 库 中 目 由 选择 要 推广 的 对 象 ， 并 按照 目 己 控制 的 展现 
方式 进行 推广 。 虽 然 说 这 是 比较 原始 的 广告 产品 形式 ， 但 也 对 原生 的 
思路 有 一 定 启发 : 只 有 给 媒体 一 定 的 选择 广告 的 权限 ， 才 能 比较 容易 
地 做 到 广告 与 内 容 在 主题 上 的 和 谐 ， 也 才 会 产生 像 淘 宝 客 那 样 可 以 将 
广告 自由 地 风 入 博客 和 各 种 网 站 。 


不 过 还 是 要 说 明 ， 这 样 商 单 的 联盟 方式 并 不 是 我 们 理想 中 的 原生 
广告 形式 。 因 为 在 这 种 方式 下 ， 数 据 基本 上 无 法 发 挥 作 用 ， 而 且 也 并 
没有 一 个 强大 的 第 三 方 平 台 专业 化 地 负责 广告 的 运营 和 投放 ， 因 此 其 
市 场 相对 原始 ， 规 模 化 程度 也 有 限 。 


7.2 移动 广告 的 现状 与 挑战 


移动 互联 网 的 快速 发 展 对 所 有 在 线 服 务 部 产生 了 站 覆 式 的 推动 ， 
在 线 广告 行业 当然 也 不 例外 。 移 动 互 联网 广告 的 产品 和 交易 形式 可 以 
ALA PC 互联 网 广告 的 目 然 延 伸 : 无 论 是 PC 上 展示 广告 网 络 的 方式 还 
苹 搜 索 苋 价 排名 的 方式 部 在 移动 流量 被 变现 的 一 开始 束 被 移植 到 了 移 
动 环境 下 。 我 们 前 面 讨论 的 在 线 广 告 市 场 的 大 多 数 交 易 机 制 和 产品 形 
仿 在 移动 广告 世界 仍然 是 适用 和 和 存在 的 。 不 过 ,移动 广告 也 存在 着 目 
己 非 芝 鲜明 的 特点 ， 这 些 特 点 使 得 这 一 市 场 同 时 存在 看 巨大 的 机 会 和 
挑战 ， 竺 别 是 存在 着 广告 原生 化 的 巨大 动力 。 因 此 ， 我 们 将 以 移动 广 
告 为 典型 的 场景 ， 分 析 原 生 广告 的 关键 产品 方 同 。 


7.2.1 移动 广告 点 


由 于 移动 互联 网 越 来 越 显 著 的 重要 性 ， 业 界 对 移动 广告 产品 逐渐 
产生 了 独立 的 思考 和 认识 。 在 认 清 了 移动 设备 的 一 些 独特 属性 ， 特 别 
是 可 以 对 人 的 行为 模式 进行 全 方位 、 人 多 天候 分 析 这 一 特点 后 ， 我 们 会 
AML, BDI alma a TARA AY BATH ALI 。 


移动 广告 的 库存 将 随 着 移动 设备 的 爆发 式 增长 而 迅猛 成 长 ， 这 一 

点 市 来 的 流量 红利 当然 是 最 天 的 机 遇 。 不 过 ， 我 们 更 关注 的 是 从 产品 
本 身 来 看 ， 移 动 广告 究竟 给 我 们 带 来 了 哪些 新 的 机 会 呢 ? 我们 认为 至 
少 有 以 下 两 点 。 

(1) 情境 广告 的 可 能 性 。 从 用 户 行为 分 析 和 角度 来 看 ， 移 动 设 备 与 
PC 最 大 的 不 同 是 可 以 对 用 户 行为 模式 进行 全 天 候 的 监测 和 分 机。 移动 
设备 的 特点 是 一 直 跟 用 户 在 一 起 ， 并 且 从 地 理 位置 、 生 活 状态 、 需 求 
意图 等 各 方面 都 能 对 用 户 有 深入 的 理解 。 因 此 ， 在 移动 环境 下 ， 受 众 
定 问 完 全 有 可 能 做 到 从 情境 和 意图 出 发 ， 而 不 是 仅仅 根据 兴趣 推送 商 
品 。 举 个 例子 ， 根 据 简单 的 地 理 位 置 分 析 就 可 以 判断 用 户 是 在 家 还 是 
在 上 班 ， 如 果 是 在 上 班 ， 那 么 束 不 应 该 向 其 推送 游戏 广告 。 

(2) 大 量 潜在 的 本 地 化 广告 主 。 广 告发 展 到 今天 ， 可 以 说 没有 任 
何 主流 的 渠道 可 以 帮助 本 地 化 小 商家 做 推广 。 电 视 、 路 牌 这 种 品牌 性 
媒体 自 不 必 说 ， 融 是 在 线 广告 在 PC 时 代 往 往 也 只 能 定位 到 城市 级 别 ， 
这 样 的 地 域 定 向 对 于 一 个 小 区 的 理发 店 来 说 显然 是 粒度 太 粗 了 “。 而 在 
移动 环境 下 ，GPS、 蜂 寅 、Wi-Fi 等 多 种 精确 定位 的 手段 使 得 基于 精确 
地 理 位 置 的 本 地 化 广告 变 得 可 行 。 当 然 ， 精 确 地 理 位 置 也 需要 结合 移 
动 特 点 ， 用 情境 化 的 方式 来 使 用 。 例 如 ， 我 们 检测 到 一 个 用 户 早 上 党 
着 地 铁 线 移动 ， 并 于 八 点 半 左 右 在 国贸 出 站 ， 那 么 很 有 可 能 他 是 一 位 
正在 赶 时 间 的 上 班 族 ， 因 此 可 以 同 他 推送 地 铁 站 口 麦 当 劳 的 早餐 套 
AR o 


7.2.2 移动 广告 的 创意 形 于 


上 面 说 到 ， 移 动 广告 就 其 交易 形态 而 言 ， 与 PC 广告 并 无 本 质 区 
别 。 但 在 广告 的 展现 和 转化 路 径 上 体现 出 比较 独特 的 一 面 ， 这 也 使 得 
移动 广告 在 PC 广告 创意 形式 的 基础 上 衍生 出 一 些 新 的 形式 ， 如 插 屏 广 
告 和 积分 墙 等 。 这 些 狐 的 创意 形式 ， 一 方面 为 传统 的 横幅 广告 提供 了 
符合 移动 设备 特点 的 补充 ， 另 一 方面 也 使 得 大 家 开始 专门 探讨 和 设计 
面向 移动 的 创意 方案 。 束 目前 市 场 来 看 ， 移 动 展示 广告 主要 的 创意 形 
式 有 横幅 、 插 屏 、 开 屏 、 锁 屏 、 推 荐 墙 、 积 分 墙 等 ， 示 例如 图 7-3 所 
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图 7-3 移动 广告 形式 示例 

1. 横 幅 与 插 屏 

横幅 (如 图 7-3 所 示 ) 是 移动 应 用 中 产生 比较 早 的 广告 创意 形式 ， 
也 是 直接 从 PC 广告 的 形式 传承 下 来 的 。 虽 然 形 式 上 类 似 ， 但 在 移动 广 
告 中 ， 横 幅 这 种 形式 会 有 一 定 的 问题 。 首 先 ， 移 动 横幅 广告 的 点 击 率 
远 远 高 于 PC 横幅 广告 ， 经 常会 达到 2%~3%， 当 然 其 中 有 很 大 比例 是 
误 点 击 。 横 幅 的 误 点 在 移动 设备 上 会 严重 打 乱 用 户 的 任务 ， 因 此 对 用 


户 体验 的 伤害 也 较 大 。 其 次 ， 广 告 主 观察 到 的 转化 率 很 着 ， 这 一 方面 


是 由 于 大 量 的 误 点 击 不 会 产生 任何 效果 ， 另 一 方面 是 由 于 广告 主 的 后 
续 转 化 体系 在 移动 上 不 够 成 熟 ， 当 然 这 并 不 是 横幅 独 有 的 问题 ， 我 们 
后 面 还 会 提 到 。 

图 7-3 中 示例 的 插 屏 广告 与 视频 中 的 暂停 广告 非常 类 似 ， 往 往 也 是 
出 现在 游戏 或 其 他 应 用 暂停 时 。 这 种 广告 同样 有 着 点 击 率 虚 高 、 转 化 
相对 较 差 等 特点 ， 而 且 可 能 比 横幅 更 加 严重 。 

虽然 横幅 和 播 屏 有 这 些 问 题 ， 但 是 由 于 广告 网 络 、 广 告 交 易 平台 
等 成 熟 交 易 体系 的 存在 ， 这 种 标准 化 程度 较 高 的 形式 最 容易 形成 规 
模 。 因 此 ， 到 目前 为 止 ,横幅 和 插 屏 广告 仍然 是 移动 展示 广告 最 主要 
的 形式 之 一 ， 并 且 主 要 以 竞价 方式 售卖 为 主 。 另 一 方面 ， 正 是 由 于 这 
些 广告 形式 在 移动 设备 上 面临 的 新 挑战 ， 才 让 业界 认真 思考 移动 广告 
更 加 有 效 的 产品 形式 。 

2. 开 屏 与 锁 屏 

开 屏 是 在 一 个 应 用 打开 时 在 加 载 页 面 展 示 的 全 屏 广 告 ， 读 者 在 新 
浪 微 博 、 网 易 新 闻 等 应 用 加 载 时 经 常 可 以 看 到 。 开 屏 可 以 说 是 移动 广 
告 形式 比较 好 的 探索 之 一 ， 因 为 用 户 在 等 待 应 用 打开 时 还 没有 明确 的 
任务 ， 因 此 不 会 对 广告 很 反感 。 另 外 ， 全 屏 的 展示 形式 让 这 种 广告 的 
品牌 价值 较 高 ， 因 此 在 实际 售卖 时 往往 以 合约 方式 为 主 。 

与 开 屏 类 似 ， 还 有 一 种 锁 屏 广告 ， 他 是 在 用 户 的 移动 设备 被 锁定 
时 展示 的 广告 ， 其 特性 与 开 屏 广告 很 相似 ， 对 用 户 体验 的 影响 也 较 


小 。 


3. 推 荐 墙 与 积分 墙 

由 于 移动 设备 中 应 用 生态 体系 的 存在 ， 尚 有 相当 比例 的 移动 广告 
预算 是 以 推广 应 用 下 载 为 目标 的 。 因 此 ， 也 产生 了 一 些 专门 针对 此 类 
推广 需求 的 广告 形式 。 最 直接 的 下 载 类 广告 形式 是 推荐 墙 (offer 
wall) ， 如 图 7-3 所 示 。 从 技术 上 说 ， 这 可 以 类 比 于 上 一 章 提 到 的 站 外 
推荐 。 不 过 ， 推 荐 墙 并 没有 成 为 移动 应 用 推荐 类 广告 最 主要 的 形式 。 

实践 中 更 常见 的 是 一 种 叫 “ 积 分 墙 * 的 产品 。 积 分 墙 同样 是 向 用 户 
推送 应 用 下 载 类 广告 ,不同 的 是 在 用 户 下 载 并 激活 该 应 用 后 会 得 到 一 
定 的 积分 。 这些 积分 往往 可 以 兑换 游戏 币 、 电 话 卡 等 虚拟 物品 ， 以 此 
刺激 用 户 的 下 载 行为 。 积 分 墙 很 容易 让 我 们 联想 起 返利 网 这 种 推广 形 
式 。 这 样 的 形式 虽然 直观 的 点 击 和 激活 都 很 好 ， 但 是 后 续 的 转化 行为 
往往 不 能 得 到 保证 。 不 过 ， 在 特殊 场景 下 ， 积 分 墙 这 种 推广 方式 也 有 
下 列 特殊 的 价值 。 

(1) 应 用 冲 榜 。 当 开发 者 开发 的 新 应 用 上 线 时 ， 往 往 需 要 短 时 间 
内 的 大 量 下 载 冲 高 在 Apple Store ^ Google Play 等 这 类 应 用 商店 里 的 排 
名 ， 因 此 积分 墙 是 一 个 很 好 的 渠道 。 不 过 在 中 国 ， 由 于 Android 市 场 非 
常 制 烈 ， 因 此 积分 墙 主 要 流行 于 iOS。 而 Apple 从 2013 年 开始 也 明确 表 
示 会 打击 这 类 用 积分 推广 影响 榜 单 的 方法 ， 因 此 其 前 景 并 不 乐观 。 

(2) 游戏 开 服 。 在 线 手机 游戏 增加 新 的 服务 器 时 ， 需 要 短 时 间 内 
大 量 玩家 进入 以 形成 社区 环境 ， 因 此 也 常常 选择 积分 墙 。 


7.2.3 移动 广告 


虽然 移动 广告 前 景 广阔 ， 但 由 于 与 PC 环境 巨大 的 差异 ， 很 多 在 广 
告 产品 中 业已 形成 的 经 验 和 规律 在 移动 环境 下 也 遇 到 了 不 小 的 挑战 。 
在 这 些 挑战 里 ， 下 面 的 三 点 尤其 值得 关注 。 

(1) 应 用 生态 造成 的 行为 数据 割裂 。 在 目前 的 移动 互联 网 环境 
中 ， 并 没有 形成 PC 时 代 那 样 的 以 Web 为 核心 的 生态 ， 取 而 代 之 的 是 以 
应 用 为 主 的 生态 体系 ， 这 有 些 像 PC 早 些 年 的 情形 。 

应 用 与 Web 相 比 ， 虽 然 在 用 户 体验 的 流畅 性 、 功 能 丰富 性 方面 有 一 
定 的 优势 ， 但 也 带 来 了 对 商业 产品 的 挑战 ， 各 应 用 之 间 相 对 独立 ， 没 
有 Web 环境 下 超 链 接 那 样 的 组 织 体系 ， 因 此 数据 的 来 源 也 相对 割裂 ， 
整合 起 来 比较 困难 。 虽 然 理论 上 说 ， 移 动 环境 对 用 户 的 了 解 更 加 深 
入 ， 但 实际 操作 中 数据 的 获取 更 加 困难 。Web 生 态 下 常用 的 数据 交换 接 
口 ， 如 JavaScript 跟 踪 代 码 之 类 ， 在 应 用 生态 中 需要 用 更 加 复杂 的 SDK 
来 解决 ， 可 行 性 往往 大 打折 扣 。 

(2) 许多 PC 时 代 广 告 主 移动 化 程度 还 不 够 ， 无 法 充分 消化 广告 带 
来 的 流量 。 虽 然 原 理 上 讲 ， 将 一 个 PC 的 广告 投放 迁移 到 移动 上 非常 简 
单 ， 但 在 实际 操作 中 会 遇 到 后 续 转 化 流程 上 巨大 的 麻烦 。 

首先 ， 是 落地 页 展示 和 交互 模式 的 巨大 差别 。 在 图 7-4 中 ， 我 们 对 
比 了 一 个 成 熟 广告 主 的 PC 端 与 移动 端 落地 页 。 很 显然 ， 如 果 将 PC 端的 
落地 页 直接 照搬 到 移动 投放 中 ， 交 互 体 验 会 非常 差 ， 效 果 当 然 也 不 会 
好 。 这 还 仅仅 是 落地 页 ， 如 果 涉 及 后 续 转 化 流程 的 多 个 页 面 ， 可 以 想 
见 广告 活动 的 移动 化 不 仅仅 是 个 系统 工程 ， 而 且 很 可 能 是 要 等 待 广告 


主 目 身 业务 移动 化 的 进程 。 就 目前 而 言 ， 移 动 端 业务 交互 较 完 善 的 中 
小 广告 主 的 比例 仍然 不 算 高 。 
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图 7-4 同一 广告 在 PC 端的 落地 页 CL) 和 移动 端的 落地 页 CR) 
有 人 会 有 疑问 ， 既 然 移 动 环境 为 应 用 生态 所 主导 ， 为 什么 广告 主 
不 能 把 落地 页 做 成 应 用 ， 再 用 广告 推广 此 应 用 呢 ? 对 于 中 大 型 的 广告 
主 ， 如 采 业 务 是 用 户 粘 性 较 高 、 周 期 性 访问 的 ， 这 样 的 策略 应 该 更 加 
合适 。 但 对 于 大 量 中 小 广告 主 或 者 那些 业务 本 喘 在 线 上 交互 较 浅 的 广 
告 主 而 言 ， 指 望 用 户 下 载 应 用 来 完成 广告 转化 的 过 程 是 不 现实 的 。 试 


想 ， 你 会 为 了 了 解 一 次 4S 店 组 织 的 试 匠 活动 而 专门 下 载 此 4S 店 开发 的 
应 用 吗 ? 

为 了 让 广告 主 后 续 的 转化 流程 更 符合 移动 环境 的 用 户 使 用 习惯 ， 
移动 广告 的 落地 页 也 产生 了 一 些 新 模式 ， 比 如 点 击 广告 直接 拨打 广告 
主 服务 电话 或 者 发 送 短信 ， 这 也 都 是 为 了 让 后 续 的 转化 流程 更 加 顺 
畅 。 

(3) 移动 广告 的 产品 形态 需要 一 次 革命 。 上 面谈 到 的 传统 横幅 广 
告 在 移动 环境 下 遇 到 的 问题 ， 实 际 上 反映 了 产品 形态 的 深层 次 问题 。 
在 传统 的 在 线 广告 产品 形态 中 ， 广 告 位 总 是 和 内 容 放 在 不 同 的 单元 
中 ， 以 相对 独立 的 产品 运营 。 但 到 了 移动 环境 下 ， 由 于 屏幕 的 尺寸 减 
小 了 很 多 ， 如 果 被 广告 位 再 占据 一 块 空 间 ， 那 么 变现 与 用 户 体 验 的 矛 
盾 就 显得 非常 突出 了 。 

那么 ， 移 动 广告 产品 形态 的 变 单 有 哪些 方向 呢 ? 显然， 前面 介绍 
的 原生 广告 是 个 值得 探索 的 方向 。 原 生 广 告 的 目的 就 是 要 解决 广告 与 
内 容 对 立 的 现象 ,希望 广告 也 能 在 用 户 正 常 的 内 容 消费 中 和 谐 地 存 
在 。 如 果 这 样 的 产品 能 够 发 展 起 来 ， 那 么 也 就 不 存在 广告 与 内 容 争 抢 
版 面 并 严重 损害 用 户 体验 的 问题 了 。 正 是 基于 此 ， 我 们 才 将 移动 广告 
和 原生 广告 这 两 个 并 非 并 列 关 系 的 问题 在 这 一 章 中 一 起 讨论 。 在 我 们 
看 来 ， 只 有 原生 化 才 是 移动 广告 的 未 来 。 

与 上 面 我 们 介绍 的 那些 原生 广告 产品 相 比 ， 移 动 广告 对 原生 化 提 
出 了 一 些 新 的 要 求 ， 最 重要 的 一 点 ， 在 上 面 的 那些 原生 广告 例子 中 ， 


运 东 原生 广告 的 都 是 媒体 本 号 ， 显 然 ， 这 样 的 方式 只 有 大 中 型 媒体 才 
有 能 力 做 。 于 是 ， 如 何以 独立 广告 平台 的 身份 提供 原生 广告 ， 像 普通 
展示 广告 那样 进行 交易 的 市 场 ， 将 是 原生 广告 面 对 规 模 化 以 及 天 量 中 
小 媒体 的 需求 时 必然 碰 到 的 问题 ， 这 也 是 我 们 下 一 节 要 展望 的 产品 重 
点 。 


7.3 原生 广告 平台 


我 们 从 原生 现 有 的 产品 状态 和 共同 特点 出 发 ， 来 看 看 市 场 真 正 需 
要 的 原生 广告 平台 的 产品 特征 。 注 意 ， 下 面 我 们 讨论 的 基础 是 由 独立 
广告 平台 ， 而 不 是 媒体 本 身 提供 广告 。 

7.3.1 表现 原生 与 意图 原生 

从 7.1 市 提 到 的 几 种 原生 广告 产品 中 可 以 发 现 ,“ 原 生 ” 这 一 概念 实 
际 上 有 两 种 不 同 的 诉求 : 一 种 诉求 是 将 广告 的 展示 风格 和 样式 变 得 与 
内 容 相 一 致 ， 从 而 做 到 产品 形式 上 的 “原生 ”*， 男 一 种 诉求 是 将 广告 的 
投放 决策 逻辑 与 内 容 生 产 相 一 致 ， 从 而 做 到 用 户 和 意图 上 的 “原生 ”。 我 
们 把 这 两 种 原生 分 别称 为 表现 原生 与 意图 原生 。 

表现 上 的 原生 性 需要 媒体 来 控制 广告 展示 形式 。 从 信息 流 广 告 、 
搜索 广告 这 些 例子 中 可 以 总 结 出 原生 广告 的 最 重要 也 最 直觉 的 产品 原 
则 ， 即 内 容 与 广告 的 展示 形式 要 尽 可 能 一 致 。 从 广告 有 效 性 原理 来 
看 ， 这 样 做 有 助 于 用 户 目 然 地 给 予 广告 更 多 的 关注 。 而 在 独立 原生 广 


告 平台 的 情形 下 ， 要 做 到 广告 与 内 容 表 现 上 的 和 谐 ， 只 能 由 媒体 来 设 
计 和 控制 展 式样 式 。 

意图 上 的 原生 性 需要 媒体 明确 提供 广告 需求 。 如 果 进 一 步 比 较 搜 
索 广 告 和 社交 网 络 信息 流 广告 ， 会 发 现 前 者 的 效果 要 远 远 好 于 后 者 。 
究 其 原因 ， 是 因为 搜索 广告 的 投放 决策 是 基本 完全 按照 内 容 结果 的 展 
示 原 则 进行 的 ， 也 就 是 说 ， 我 们 在 以 投放 内 容 的 方式 匹配 广告 。 根 据 
这 一 点 ， 可 以 得 到 原生 广告 的 另 一 个 产品 原则 ， 即 应 该 用 媒体 提供 的 

告 需求 来 筛选 广告 。 

在 7.1 节 介绍 的 原生 广告 产品 中 ， 社 交 网 络 信 息 流 广告 侧重 于 表现 
的 原生 性 ， 而 搜索 广告 在 表现 和 意图 两 个 方面 都 是 原生 的 。 大 体 而 
言 ， 对 于 那些 用 户 直 接 意 图 比较 模糊 的 用 户 产 品 ， 如 社交 网 络 、 新 闻 
列表 等 ， 表 现 原生 的 广告 产品 就 足够 了 ; 而 对 于 用 户 直 接 提供 明确 意 
图 的 用 户 产 品 ， 如 搜索 ， 则 最 好 要 做 到 意图 上 的 原生 性 。 除 了 这 两 类 
产品 ， 互 联网 上 还 有 大 量 的 用 户 产 品 在 实际 上 有 比较 明确 的 用 户 意 
图 ， 但 是 并 未 以 查询 等 方式 直接 提供 ， 并 且 表 现形 式 上 也 不 是 规整 的 
言 息 流 模式 ， 联 盟 或 软文 适用 于 这 样 场景 的 原生 广告 形式 ， 这 实际 上 
也 是 兼顾 了 表现 和 意图 上 的 原生 性 。 但 是 ， 联 盟 和 软文 并 不 能 像 其 他 
广告 产品 那样 以 计算 的 方式 来 优化 效果 ， 并 且 通 过 广告 市 场 规模 化 地 
交易 ， 因 此 在 这 方面 存在 着 探索 空间 。 

比较 理想 的 原生 广告 平台 应 该 能 兼顾 表现 原生 和 意图 原生 的 要 
求 ， 并 且 仍 然 可 以 以 第 三 方 平台 的 形式 规模 化 地 运营 ， 而 这 样 的 设想 


在 移动 广告 的 推动 下 也 已 经 形成 了 一 定 的 产品 趋势 ， 我 们 将 在 下 一 市 
HOSTES © 
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在 一 个 第 三 方 运 强 的 原生 广告 平台 中 ， 媒 体 应 该 提供 哪些 合理 且 
有 指导 性 的 广告 需求 呢 ? 人 简单 来 说 ， 一 是 要 判断 用 户 当 前 的 意图 ， 二 
征 要 确定 根据 用 户 的 意图 提供 什么 信息 。 例 如 ， 在 一 篇 旅游 博客 上 ，， 
媒体 运 理 方 可 以 很 容易 地 判断 读 考 一 般 是 为 了 了 解 该 目的 地 的 旅游 信 
已， 进而 可 以 同 广 告 平 台 请 求 同 一 目的 地 的 酒店 作为 广告 。 我 们 相 
信 ， 通 过 这 种 方式 ， 可 以 真正 挖掘 一 家 媒体 的 商业 价值 。 这 并 不 同 于 
传统 的 展示 广告 中 的 上 下 文 定 同 ， 因 为 在 上 下 文 定 同 中 ， 有 是 广告 乎 
台 ， 而 非 媒 体 采用 比较 粗浅 的 自然 语言 处 理 方法 获得 页 面 的 主题 。 对 
于 用 户 的 意图 ， 这 种 面向 全 行业 的 自动 化 往往 行 不 通 ， 而 如 果 有 了 媒 
体 的 主动 参与 ， 用 户 意 图 提取 起 来 整容 易 得 多 了 。 

广告 平台 提供 的 古 结构 化 的 付费 内 容 。 由 于 媒体 控制 广告 展示 ， 
广告 平台 返回 的 丈 不 能 是 成 型 的 图 片 或 文字 链 创 意 ， 而 必须 是 一 些 结 
构 化 的 信息 作为 媒体 拼装 创意 的 素材 。 因 此 ， 原 生 广告 平台 的 广告 库 
的 结构 不 是 简单 的 广告 投放 和 创意 信息 ， 而 是 各 行业 结构 化 的 付费 内 
容 ， 这 一 点 将 会 显著 改变 广告 业态 的 结构 。 

如 果 按 照 上 面 的 逻辑 来 设计 和 运 宫 一 个 原生 广告 平台 ， 实 际 上 可 
以 称 为 一 个 “ 植 入 式 广告 ”的 投放 系统 ， 这 样 的 系统 逻辑 是 在 内 容 的 行 


文中 目 然 地 植 入 付费 信息 。 我 们 仍然 以 上 面 提 到 的 旅游 网 站 为 例 ， 用 
图 7-5 中 的 概念 性 示例 看 一 下 整个 投放 决策 过 程 。 

图 中 的 三 告 请 求 发 生 在 某 拉 院 旅 行 游记 的 网 页 上 。 在 这 样 的 内 容 
中 ， 除 了 游记 本 吴 ， 编 辑 很 目 然 地 会 推荐 拉萨 的 酒店 ， 以 方便 读者 。 
然而 我 们 知道 ， 酒 店 信息 是 高 度 商业 化 的 内 容 ， 有 没有 可 能 以 付费 内 
容 的 方式 从 第 三 方 广告 平台 获得 呢 ? 这 显然 是 可 行 的 。 


拉萨 游记 结构 化 付费 内 容 库 
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ES EM: 类 型 = 酒 后 ; 
拉萨 酒店 : 地 点 = 拉 院 ; 


图 7-5 植 入 式 原生 广告 投放 过 程 示意 

(1) 首先 ， 网 站 的 运营 者 给 出 用 户 的 意图 ， 并 用 一 个 结构 化 查 
询 “ 类 型 = 酒店 ; 地 点 = 拉萨 ”来 表示 。 这 里 的 “类 型 限定 的 是 需要 什么 
样 的 付费 内 容 ， 而 “地 点 ” 则 是 与 此 类 型 相关 的 查询 条 件 。 

(2) 广告 投放 机 收 到 此 查询 后 ， 会 去 酒店 库 中 检索 符合 条 件 的 酒 
店 。 在 得 到 候选 后 ， 广 告 投放 机 仍然 要 根据 eCPM 对 各 个 候选 排序 ， 而 
在 此 排序 过 程 中 ， 人 群 标签 仍然 可 以 使 用 ， 比 如 收入 水 平 较 高 的 用 户 
可 能 对 高 星 级 的 酒店 点 击 率 较 高 。 

(3) 排序 完成 以 后 ， 将 结构 化 的 酒店 信息 拼装 泻 染 装 入 页 面 的 过 
程 由 媒体 来 控制 。 媒 体 可 以 自由 地 根据 自己 页 面 的 风格 、 色 调 、 字 体 
等 从 酒店 信息 中 选取 需要 的 字段 ， 加 工 成 最 终 展示 出 来 的 创意 ， 而 这 
样 的 创意 是 可 以 做 到 与 内 容 无 颖 融合 的 。 在 实际 产品 中 ， 如 果 将 每 一 
次 的 广告 泻 染 都 交 由 媒体 处 理 ， 既 对 媒体 提出 过 高 的 技术 要 求 ， 又 不 
利于 点 击 监测 、 反 作弊 等 环节 的 实施 。 因 此 ， 我 们 可 以 采用 一 种 等 价 
的 方法 : 由 媒体 按照 广告 平台 的 格式 提供 泻 染 模板 ， 在 广告 平台 审核 
通过 后 ， 每 次 展示 按照 此 模板 来 拼装 泻 染 ， 最 后 返回 的 与 普通 广告 一 
样 ， 仍 然 是 一 段 HIML 片 段 。 

以 植 入 式 广告 的 逻辑 来 运营 原生 广告 ， 是 希望 在 内 容 生 产 的 过 程 
中 ， 当 某 些 片段 商业 价值 较 高 时 ， 将 这 些 内 容 按 照 严 格 的 条 件 交 由 广 
告 平台 来 生产 。 这 样 做 ,不仅 可 以 避免 现 有 的 展示 广告 产品 对 用 户 体 


验 的 打扰 和 伤害 ， 而 且 有 可 能 将 展示 广告 变 成 类 搜索 广告 ,真正 为 媒 
体 创造 高 价值 的 变现 能 

不 过 ， 不 要 指望 这 样 的 产品 能 在 一 夜 之 间 变 成 主流 ， 因 为 这 样 的 
广告 体系 与 现 有 体系 差别 是 巨大 的 。 它 可 能 将 会 面临 以 下 两 方面 的 挑 
战 。 


(1) 媒体 参与 让 广告 多 了 一 个 自由 度 ， 运 营 难度 大 大 增加 。 在 前 
面 介绍 的 各 种 广告 产品 中 ， 媒 体 对 于 除了 品牌 广告 部 分 的 交易 ， 基 本 
上 都 可 以 简单 地 加 投放 代码 或 SDK 来 完成 。 这 虽然 带 来 了 引发 原生 广 
告 讨论 的 许多 问题 ， 但 也 极 大 地 方便 了 媒体 的 流量 变现 需求 。 但 是 无 
论 是 “原生 ?还 是 “ 植 入 式 ”， 从 字面 就 可 以 理解 ， 没 有 媒体 一 定 程度 的 参 
与 是 不 可 能 的 。 如 末 媒 体 以 图 7-5 所 示 的 方式 参与 广告 交易 过 程 ， 从 生 
成 用 户 意 图 查询 到 渲染 模板 的 设计 ， 和 需要 做 不 少 的 工作 。 所 以 ， 尽 管 
原生 广告 对 于 媒体 用 户 体 验 和 变现 能 力 剖 有 儿 助 ， 但 要 想 让 中 小 型 媒 
体 参与 到 这 样 的 交易 过 程 中 ， 和 需要 一 个 较 长 的 市 场 培育 和 产品 教育 过 
程 。 


(2) 大 量 分 行业 、 结 构 化 广告 信息 的 建立 需要 时 间 。 原 生 广 告 处 
理 的 信息 从 原来 的 广告 创意 变 成 了 结构 化 的 付费 内 容 。 然 而 ， 即 使 是 
目前 比较 大 的 广告 平台 ， 实 际 上 也 还 没有 成 规模 地 积 素 起 这 样 的 付费 
内 容 库 ， 它 们 有 的 都 只 是 广告 创意 。 唯 一 已 经 积累 起 一 些 付费 内 容 库 
的 产品 是 DSP 中 的 个 性 化 重 定 辣 ， 其 单 品 库 主 要 集中 在 电 商行 业 。 而 大 


量 的 非 商业 化 行业 ， 如 新 闻 、 视 频 等 ， 实 际 上 也 存在 付费 推广 自己 内 
容 的 需求 ， 而 这 部 分 的 内 容 库 都 需要 市 场 慢 慢 积 累 。 
7.3.3 产品 案例 

以 独立 广告 平台 方式 运营 的 原生 广告 产品 在 市 场 上 还 处 于 刚刚 萌 
芽 的 阶段 ， 我 们 以 2014 年 InMobi 发 布 的 产品 为 例 进行 介绍 。 另 外 ， 有 
关 分 行业 结构 化 信息 作为 付费 内 容 的 引入 ， 我 们 将 介绍 一 家 名 为 
OutBrain 的 创业 公司 。 

1.InMobi 原生 广告 


InNobl 


作为 一 家 总 部 在 印度 的 广告 技术 公司 ，InMobi 在 创立 之 初 就 把 握 
了 移动 互联 网 广告 的 全 球 化 的 特点 ， 大 力 开阔 全 球 市 场 ， 首 先 避 开 竞 
争 激烈 的 北美 、 欧 洲 市 场 ，ImMobi 把 视角 对 准 印 度 周 边 的 新 型 市 场 ， 
如 印度 尼 西 亚 、 马 来 西亚 、 沙 特 阿 拉 伯 等 ， 等 有 了 一 定 实力 站 稳 脚 跟 
后 InMobi 再 进入 北美 市 场 、 欧 洲 等 市 场 ， 经 过 不 断 的 全 球 化 拓展 的 努 
力 ，ImMobi 成 为 仅 次 于 Google Admob ERE KED EFR, A 
盖 到 全 球 165 个 国家 和 地 区 的 7.59 亿 消费 者 。InMobi 在 2012 年 的 营 收 为 
6000 万 美元 ，2013 年 就 增长 到 了 1.04 亿 美元 ， 发 展 势头 相当 迅 狐 。 

在 发 展 移动 广告 平台 的 过 程 中 ，InMobi 发 现 应 用 比 网 站 更 加 重视 
用 户 体 验 ， 而 沿用 PC 端的 传统 横幅 广告 显然 会 影响 App 的 用 户 体 验 。 
对 移动 端 来 说 提升 用 户 体 验 就 可 以 提升 流量 变现 能 力 ， 由 于 移动 端的 


环境 限制 相对 于 PC 端 更 重要 ，InMobi 在 洞察 到 这 一 点 后 ， 在 2014 年 
年 初 推出 了 原生 广告 平台 。 原 生 广 告 能 够 完全 融入 应 用 本 身 的 内 容 、 
场景 和 交互 方式 ， 不 会 打 断 用 户 与 移动 App 的 交互 和 体验 ， 用 户 也 不 
会 有 突 元 的 感觉 ， 因 而 可 以 最 大 限度 地 维护 用 户 体验 。 

InMobi 原 生 广 告 的 示例 如 图 7-6 所 示 。 在 即时 通信 、 应 用 搜索 、 桌 
面 或 新 闻 等 各 类 应 用 中 ， 都 可 以 以 本 场 定制 化 的 形式 展示 InMobi 提 供 
的 应 用 下 载 类 或 品牌 类 付费 信息 ， 并 且 根 据 供 给 方 的 需要 对 信息 进行 
裁剪 和 排列 。 
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图 7-6 InMobi 原 生 广 告示 例 


在 推出 了 原生 广告 后 ，InMobi 广 告 的 流量 变现 能 力 相 对 传统 的 横 
幅 广告 提升 了 5 倍 以 上 。 更 重要 的 是 ， 一 些 高 端的 应 用 更 加 愿意 沦 试 这 
种 广告 形式 ， 这 将 会 给 移动 广告 市 场 帝 来 深远 的 正面 影响 。 当 然 ， 目 
前 的 原生 广告 在 部 署 过 程 中 还 远 远 不 能 达到 目 动 化 ,仍然 需要 InMobi 
工程 师 的 参与 ， 因 此 市 场 推 广 进程 并 不 快 ， 也 需要 更 加 方便 快捷 的 媒 
体 解决 方案 。 

2.OutBrain 
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务 ，CNN 等 媒体 都 是 它 的 客户 。 它 会 依据 读者 的 兴趣 ， 采 用 基于 行为 
定向 的 推荐 技术 ， 在 文章 末尾 呈现 一 系列 的 推荐 阅读 。 对 这 些 内 容 媒 
体 而 言 ， 它 提高 了 页 面 浏览 量 和 读者 互动 度 。 同 时 ， 它 也 在 推荐 内 容 
中 以 付费 内 容 这 一 原生 广告 的 形式 直接 推介 广告 主 的 内 容 而 不 是 广告 
创意 。 在 comScore 2013 年 的 调查 中 ， 有 超过 在 10 万 家 媒体 采用 了 
OutBrain， 每 月 产生 的 推荐 请 求 总 量 超过 1500 亿 。 

从 原生 广告 的 角度 来 看 ，OutBrain 实际 上 迈 出 了 重要 的 一 步 ， 那 
就 是 从 投放 广告 创意 变 成 了 投放 付费 内 容 。 这 样 的 变化 使 得 效果 广告 
达到 了 以 单 品 为 核心 的 推广 模式 ， 从 而 与 品牌 广告 彻底 差异 化 ， 而 这 
样 的 单 品 库 也 正 是 我 们 上 面 讨论 的 原生 广告 的 基础 设施 之 一 。 另 外 ， 
这 种 模式 为 过 去 一 些 无 法 投 送 广告 的 内 容 类 媒体 创造 了 有 效 的 营销 渠 


道 ， 从 而 拓展 了 整个 广告 市 场 的 服务 对 象 。 当 然 ， 这 样 的 运营 方式 的 
难点 在 于 如 何 从 新 闻 品 类 拓展 到 其 他 更 广泛 的 品类 。 


7.4 原生 广告 与 程序 化 交 


在 讨论 到 原生 广告 后 ， 本 书 的 话题 似乎 来 了 个 180°HW ARS: 从 
受 从 购买、 程序 化 的 市 场 趋势 变 成 了 在 媒体 深度 参与 下 将 广告 融合 到 
内 容 中 。 读 阁 不 免 会 产生 这 样 的 疑问 ， 这 两 条 道路 征 不 是 通 往 同 一 个 
方向 呢 ? 原生 广告 与 程序 化 交易 的 产品 结合 点 在 哪里 呢 ? 

要 回答 这 些 问题 ， 请 大 家 先 观察 和 思考 一 个 现象 ， 搜 索 广 告 是 否 
有 程序 化 交易 的 可 能 呢 ? 显 然 ， 我 们 没有 见 到 过 这 种 产品 场景 。 不 过 
在 Facebook 的 信息 流 广告 中 却 有 按照 广告 主 上 传 的 人 群 库 投放 的 方 
式 ， 这 虽然 不 是 程序 化 交易 ， 但 目的 却 很 类 似 ， 而 且 也 很 容易 改造 成 
RTB 的 交易 方式 。 本 书 前 面 拓 到 ， 搜 索 广 告 和 信息 流 广 告 都 症 原 生 广告 
的 特殊 形式 ， 那 么 为 什么 在 程序 化 交易 这 一 点 上 两 种 形式 的 接受 程度 
不 同 呢 ? 

实际 上 ， 关 键 问 题 束 是 原生 广告 的 触发 是 否 根据 用 户 意图 进行 。 
在 明确 提供 用 户 意图 的 原生 广告 中 ， 完 全 开放 地 进行 RTB， 很 难 控制 付 
费 结 采 的 相关 性 。 例 如 ， 对 搜索 而 言 ， 能 够 做 到 民 好 相关 性 的 只 有 
Google 这 样 的 大 平台 ， 而 引入 大 量 DSP 参 与 竞价 ， 就 很 难保 证 结果 质 
量 。 因 此 ， 在 这 种 情形 下 ， 采 用 单个 技术 能 力 较 强 原生 广告 网 络 (也 
BDA EVES) 的 方式 比较 可 行 。 而 如 琳 是 像 社交 网 络 信息 流 这 样 的 原生 


广告 环境 ， 由 于 用 户 意图 并 不 明确 ， 也 不 要 求 广告 依 此 触发 ， 完 全 可 
以 考虑 用 程序 化 交易 的 方式 来 运营 ， 而 且 我 们 认为 这 也 是 原生 广告 未 
来 的 发 展 趋势 之 一 。 


7.5 延伸 思考 


1. 对 于 大 型 广告 主 和 中 小 广告 主 ， 移 动 互联 网 营销 相 比 PC 互联 网 
营销 来 说 ， 发 生 了 什么 有 利 或 不 利 的 变化 ? 

2. 移 动 设备 与 PC 的 跨 屏 营销 主要 需求 场景 有 哪些 ? 

3. 游 戏 联运 是 移动 上 常见 的 泛 广告 产品 ， 同 时 游戏 也 是 移动 广告 的 
主要 广告 主 类 型 之 一 。 如 果 某 公司 同时 运营 移动 广告 网 络 和 游戏 联运 
产品 ， 这 两 者 应 该 如 何 分 工 协 作 ? 

4. 请 探讨 CPM/CPC/CPA 等 计 费 模式 在 原生 广告 中 的 适用 场景 。 
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根据 前 面 对 计 算 广 告 产 品 和 业务 模式 的 讨论 ， 从 广告 和 省 广告 变 
现 的 角度 来 看 ， 在 互联 网 市 场 上 主要 有 三 种 资产 能 够 变 成 钱 ， 分 别 是 
数据 、 流 量 和 品牌 属性 。 后 两 项 是 媒体 的 专属 ， 而 第 一 项 既 可 能 来 目 
于 媒体 ， 也 可 能 来 日 于 第 三 方 的 数据 拥有 者 。 在 当今 越 来 越 复 杂 的 广 
告 交易 和 数据 变现 市 场 中 ， 如 采 从 实际 需求 的 角度 来 看 ， 不 外 乎 有 下 
面 三 类 问题 。 

(1) 媒体 如 何 利用 合适 的 广告 产品 更 好 地 变现 ? 媒体 利用 广告 手 
段 来 变现 ， 要 兼顾 短期 收益 和 长 期 品牌 价值 提升 的 双重 目的 ， 如 何 合 
理 地 利用 自 有 销售 渠道 以 及 各 种 供给 方 的 广告 产品 以 平衡 这 两 方面 的 
目的 ， 是 此 问题 的 主要 关注 点 。 同 时 ， 媒 体 往 往 也 拥有 一 定量 的 数 
据 ， 将 数据 变现 和 流域 流量 变现 结合 在 一 起 ， 也 是 媒体 需要 考虑 的 。 

(2) 广告 主 应 选择 何 种 广告 平台 ， 结 合 什么 样 的 数据 来 完成 高 效 
的 营销 ? 广告 主 对 于 广告 市 场 的 可 参与 程度 比 媒 体 要 深入 ， 根 据 营 销 
活动 阶段 与 目的 不 同 ， 需 要 谭 慎 选择 合适 的 需求 方 产 品 ， 并 通过 第 一 
方 数据 与 第 三 方 数据 的 帮助 来 优化 营销 效果 。 

(3) 拥有 数据 的 第 三 方 组 织 如 何 利用 广告 市 场 将 自己 的 数据 变 成 
ER? 数据 变现 的 问题 在 广告 交易 中 得 到 了 相当 程度 的 发 展 ， 不 过 仍然 
处 在 比较 初级 的 阶段 。 高 价值 数据 的 所 有 者 如 采 想 在 广告 市 场 变现 ， 


也 有 深入 参与 和 简单 参与 两 种 方案 ， 而 且 特 别 需 要 根据 数据 和 广告 主 
行业 的 特点 来 加 工 数据 。 

本 章 并 不 会 谈 到 新 的 产品 ， 主 要 是 从 广告 市 场 儿 种 主要 角色 的 视 
角 出 发 ， 帮 助 大 家 直观 地 了 解 如 何 结合 业务 需求 选择 和 使 用 广告 产 
品 。 无 论 您 是 用 户 产 品 的 运 宫 者 、 在 线 商品 服务 的 提供 者 ， 还 是 其 他 
数据 的 拥有 者 ， 了 人 解 这 些 实战 环 市 都 会 对 您 按照 互联 网 规律 运 襄 好 日 
己 的 产品 有 帮助 。 


8.1 媒体 实战 


这 里 所 说 的 媒体 指 的 是 一 切 拥 有 流量 的 Web 网 站 、WAP 网 站 、 
HTML5 网 站 、PC 或 移动 应 用 程序 等 。 媒 体 的 变现 渠道 无 非 是 面向 终 
端 用 户 和 面向 客户 两 种 ， 而 除 广 告 以 外 的 面向 客户 的 很 多 形式 (如 游 
戏 联运 、 免 流量 下 载 等 ) 的 产品 本 质 与 广告 是 一 致 的 。 如 果 用 广告 形 
式 变现 ， 前 提 是 其 交互 界面 可 以 加 入 广告 位 ， 或 者 一 些 内 容 中 可 以 以 
原生 的 方式 混入 付费 内 容 。 除 了 面 问 客户 的 广告 变现 ， 媒 体 还 有 其 他 
面 癌 用 户 的 变现 手段 ， 利 用 应 用 直接 收费 或 者 内 置 订 阅 或 付费 等 ， 这 
些 本 书 不 详细 讨论 。 

媒体 利用 广告 市 场 的 目的 无 非 生 获 得 收入 。 不 过 在 获得 收入 的 同 
时 ， 一 定 要 特别 注意 广告 产品 给 用 户 体验 带 来 的 负面 影响 ， 这 一 立场 
是 与 广告 市 场 其 他 参与 方 不 同 的 。 坚 持 利 用 高 质量 的 广告 变现 有 利于 
媒体 长 期 保持 和 提升 目 己 的 品牌 价值 ， 从 而 在 优先 销售 的 广告 上 获得 


更 高 的 品牌 洲 价 。 不 过 对 大 量 中 小 媒体 而 言 ， 很 难 在 品牌 销售 上 找到 
切入 点 ， 因 此 重点 关注 的 古 即时 的 单位 流量 变现 能 力 ， 即 RPM 。 


媒体 选择 合适 的 广告 产品 主要 考虑 以 下 几 方 面 因 素 : 是 综合 性 媒 


itv BURR? 媒体 的 品牌 价值 如 何 ? 媒体 的 流量 是 否 足 够 大 ? UR 
体 是 否 有 高 价值 的 数据 ? 根据 这 几 方 面 因 素 ， 媒 体 在 进行 商业 变现 时 
的 决策 逻辑 如 图 8-1 所 示 。 下 面 我 们 将 介绍 此 决策 过 程 中 的 关键 点 。 


内 容 流 或 列表 、 商 业 信 


NES ELA 


LUST 
品牌 属性 ? 


iit 


不 足够 大 ? 
对 广告 质量 MERKI 


REZA 


ilta TAEMA 优化 收益 
图 8-1 媒体 利用 广告 变现 决策 过 程 示 意 
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在 移动 互联 和 广告 实效 化 充分 发 展 的 今天 ， 我 们 建议 媒体 首先 要 


考虑 的 变现 方式 旦 原生 广告 。 如 采 你 的 内 容 中 有 内 容 流 、 列 表 等 适合 


做 原生 广告 的 形式 或 者 其 他 一 些 可 以 商业 化 的 内 容 段 落 ， 那 么 融 可 以 
著 虑 用 原生 的 方式 加 入 付费 内 容 。 原 生 广告 的 变现 产品 落地 有 两 种 选 
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(1) 如 果 流 量 充分 ， 可 以 自行 运营 原生 广告 平台 (如 站 内 的 搜索 
或 新 闻 应 用 的 内 容 ) ， 特 别 是 当 站 内 搜索 有 足够 的 流量 时 ， 在 搜索 结 
果 中 插入 原生 的 付费 结 采 是 最 需要 重视 的 变现 方式 。 这 些 做 法 对 广告 
主 的 质量 、 相 关 程 度 都 可 以 最 好 地 控制 。 

(2) 如 果 流 量 不 充分 ， 那 么 合理 的 方案 是 与 其 他 原生 广告 平台 或 
相关 行业 的 搜索 广告 提供 商 合作 ， 不 过 如 第 7 半 中 介绍 的 ， 原 生 广告 平 
台 在 产品 和 市 场 落地 方面 还 处 于 比较 初级 的 阶段 ， 实 际 操作 难度 会 比 
较 大 。 

总 之 ,原生 广告 从 趋势 来 看 应 该 给 予 很 高 的 重视 程度 ， 但 对 中 小 
媒体 而 言 目前 还 并 不 是 一 个 可 以 规模 化 变现 的 市 场 。 

如 果 采 用 一 般 广 告 形式 变现 ， 首 先 要 判断 的 是 媒体 是 否 具有 比较 
有 价值 的 品牌 属性 。 如 果 是 这 样 ， 首 先 应 该 考虑 通过 合约 的 方式 售卖 
品牌 广告 :在 一 些 强 曝光 的 广告 位 (如 门户 首页 的 特 型 广告 位 ) E, 
应 该 采用 CPT 结 算 的 广告 位 合约 ， 而 在 其 他 一 些 通用 的 横幅 位 置 上 ,我 
们 推荐 采用 按照 CPM 结算 的 展示 量 合 约 ， 而 且 售卖 的 标的 应 该 是 定 回 
以 后 的 人 群 标 釜 。 当 然 ， 在 今天 中 国 市 场 中 ， 后 一 种 也 十 以 CPT 方 式 为 
主 ， 不 过 我 们 仍然 认为 其 有 向 CPM 定向 广告 演进 的 动力 。 首先 考虑 合 
约 广告 ， 征 因为 其 品牌 淤 价 的 能 力 ， 这 往往 使 得 它 会 比 一 般 的 竞价 广 


告 有 更 高 的 RPM 水 平 。 同 时 ， 一 旦 建立 了 品牌 广告 销售 体系 ， 在 采用 
其 他 竞价 广告 时 ， 和 需要 特别 注意 是 否 会 对 品牌 广告 有 制度 和 价格 上 的 
冲击 。 

一 般 来 说 ， 为 了 维持 价格 水 平 ， 媒 体 的 合约 广告 售卖 率 不 会 很 
高 。 合 约 广告 未 能 变现 的 剩余 流量 就 需要 采用 其 他 竞价 广告 了 。 在 行 
NV HE ERR ANSE SORIA, ET AY HS TANT] e ON RETA 
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值 的 提升 ， 一般 来 说 只 能 运营 一 个 行业 垂直 的 广告 网 络 ， 如 有 果 是 综合 
类 媒体 或 者 视频 、 音 乐 这 类 非 商 业 行业 的 垂直 媒体 ， 那 么 可 以 采用 对 
行业 无 限制 的 水 平 广告 网 络 ， 在 对 广告 质量 高 或 媒体 流量 足够 大 时 ， 
可 以 考虑 目 建 广告 网 络 ， 否 则 更 便捷 的 方式 是 将 流量 卖 给 市 场 上 较 大 
的 广告 网 络 。 

除了 广告 网 络 ， 当 然 还 需要 考虑 新 的 程序 化 交易 模式 。 程 序 化 交 
易 主 要 有 两 种 选择 : 公开 的 交易 市 场 和 私有 的 交易 市 场 。 这 两 种 市 场 
的 选择 逻辑 与 前 面 的 广告 网 络 类 似 ， 当 对 广告 主 类 型 、 质 量 有 较 高 要 
求 时 ， 最 好 采用 私有 交易 的 模式 ， 挖 制 好 DSP 的 准 入 门 酸 和 制度 ， 特 别 
征 当 媒体 主要 依赖 品牌 广告 时 ， 与 品牌 售卖 政策 有 神 突 的 行业 性 DSP 有 要 
WARA; 而 当 对 广告 主 质量 没有 特殊 要 求 时 ， 可 以 选择 公开 交易 的 
市 场 。 不 过 ， 程 序 化 交易 其 实 并 非 简 单 的 广告 网 络 升级 ， 竺 别 是 在 私 
有 交易 市 场 中 ， 原 有 的 品牌 售卖 需求 也 可 以 在 更 高 层次 上 得 到 满足 ， 


并 且 通 过 竞价 的 模式 提高 收益 。 因 此 ， 拥 抱 程 序 化 交易 ， 提 升 品牌 售 
卖 的 效率 ， 是 高 质量 媒体 在 当今 必须 考虑 的 方向 之 一 。 

当 媒 体 同 时 通过 销售 品牌 广告 、 多 个 广告 网 络 、 程 序 化 交易 市 场 
等 产品 形式 进行 变现 时 ， 可 以 使 用 统一 的 SSP 来 分 配 流量 。 不 过 由 于 
市 场 上 广告 网 络 数量 的 减少 和 程序 化 交易 的 快速 发 展 ，SSP 正 在 变 得 与 

告 交易 市 场 越 来 越 同 质 化 。 
8.1.2 数据 支持 方案 决策 

媒体 在 确定 了 利用 广告 变现 的 产品 形式 和 交易 方式 以 后 ， 还 需要 
考 虚 这 些 产 品 需 要 的 数据 支持 ， 而 且 这 一 点 从 某 种 意义 上 更 加 关键 。 
选择 什么 广告 变现 方案 需要 数据 支持 呢 ? 根据 图 8-1 所 示 ， 当 有 CPM 
定向 广告 、 自 营 广 告 网 络 或 私有 交易 存在 时 ， 需 要 考虑 这 一 问题 。 

在 按 CPM 售卖 的 定向 展示 量 合约 广告 中 ， 媒 体 需要 提供 人 群 的 分 
类 体系 供 广告 主 来 购买 ， 这 一 点 往往 需要 数据 支持 ， 否 则 就 只 能 提供 
地 域 定向 了 。 由 于 面向 品牌 广告 主 ， 人 口 属性 定向 比较 重要 ， 因 此 需 
要 有 相关 的 数据 来 源 ， 或 者 在 没有 直接 数据 来 源 时 利用 行为 数据 建立 
人 口 属性 预测 的 模型 。 除 了 人 口 属性 ， 根 据 行 为 的 兴趣 分 类 也 经 党 用 
于 CPM 定向 广告 。 

在 自 营 广告 网 络 或 私有 程序 化 交易 中 ， 提 供 受 众 标签 的 目的 是 让 
广告 主 或 DSP 有 充分 的 流量 选择 能 力 ， 从 而 提高 整个 市 场 的 流动 性 。 因 
此 ， 在 这 两 种 情形 下 ， 媒 体 也 需要 获得 受众 标签 的 能 力 。 另 外 ， 在 这 


两 种 情形 下 ， 由 于 市 场 是 况 价 交易 的 方式 ， 标 签 的 粒度 可 以 很 细 ， 品 
类 上 也 可 以 很 丰 晤 ， 其 目的 都 症 为 了 驱动 直接 效果 类 三 告 。 

获得 这 些 人 口 属性 或 兴趣 标签 需要 一 个 数据 管理 和 受众 定向 的 平 
台 。 如 果 媒 体 目 喘 拥 有 的 相关 数据 比较 充分 ， 男 外 义 有 合适 的 产品 技 
术 团 队 ， 出 于 数据 安全 灵活 性 和 快速 欠 代 的 考虑 ， 可 以 目 建 受众 定 辐 
平台 文 持 业务 。 不 过 ， 对 于 大 量 的 中 型 以 下 媒体 ， 要 么 是 没有 充足 的 
相关 数据 ， 要 么 生 不 值得 投入 一 个 专门 的 团队 ， 在 这 种 情形 下 ， 不 妨 
直接 选择 第 三 方 的 DMP 产品 ， 将 数据 委托 其 加 工 ， 同 时 从 DMP 获得 
更 充足 的 通过 第 三 方 数据 加 工 的 、 更 为 精准 的 受众 标签 。 


8.2 广告 主 实战 


广 乞 主 指 的 是 所 有 以 付费 方式 推广 目 己 的 品牌 、 产品 或 内 容 的 组 
织 。 在 互联 网 的 环境 下 ， 广 告 主 的 营销 目的 差异 化 很 大 ， 因 此 也 需要 
合理 地 远 择 广告 市 场 中 合适 的 产品 ， 人 否则 很 有 可 能 与 其 膏 销 目标 背 道 
而 驰 。 

广告 主 对 昔 销 方式 的 选择 ， 主 要 要 考虑 儿 方面 的 因素 : 是 推广 品 
牌 还 是 直接 销售 ? 是 否 有 自己 的 第 一 方 数 据 可 以 用 于 营销 ? 对 新 客 和 
CAVE TA RM? 根据 这 几 方 面 的 因素 ， 广 告 主 选择 在 线 广 告 产 
品 时 的 决策 逻辑 如 图 8-2 所 示 。 下 面 我 们 将 介绍 此 决策 过 程 中 的 关键 
点 。 


推广 目的 是 否 为 直 搂 转化 ? 
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图 8-2 广告 主 在 线 营销 决策 过 程 示意 

影响 广告 主 在 线 营销 推广 方案 的 第 一 要 素 是 推广 的 目的 。 根 据 品 
牌 和 效果 这 两 大 类 不 同 的 推广 目的 ， 应 该 选择 的 推广 产品 和 策略 也 大 
相 径 庭 。 

如 果 推 广 的 目的 为 直接 转化 ， 也 就 是 直接 效果 广告 ， 那 么 先 根据 
是 否 利用 广告 主 自己 的 第 一 方 数据 做 渠道 来 进行 选择 。 在 没有 或 不 用 
第 一 方 数据 的 情形 下 ， 可 选 的 效果 类 推广 渠道 主要 有 搜索 广告 、 展 示 
广告 网 络 这 类 按 CPC 结 算 的 渠道 以 及 垂直 行业 入 口 、 返 利 网 这 类 主要 
按 CPS 结算 的 渠道 。 一 般 来 说 ， 展 示 广 告 网 络 用 于 效果 营销 时 的 效 
果 ， 与 搜索 广告 相 比 还 有 不 小 的 差距 ， 因 此 主要 还 是 作为 搜索 的 辅助 
渠道 在 预算 充足 、ROI 要 求 不 是 很 严格 的 情况 下 采用 。 当 然 ， 在 搜索 广 


告 流 量 不 容易 获得 时 ， 投 放 网 络 有 助 于 扩大 人 群 的 触及 ， 对 总 体 营 销 
规模 的 扩大 有 帮助 。 当 需要 高 ROI 的 营销 渠道 时 ， 搜 索 广告 几乎 是 必 不 
可 少 的 选择 ， 也 是 效果 营销 领域 最 受 重 视 的 渠道 。 不 过 搜索 广告 大 量 
关键 词 选择 、 管 理 和 出 价 是 非常 复杂 的 优化 过 程 ， 除 像 京东 、 携 程 这 
样 的 大 型 广告 主 之 外 ， 一 般 都 是 通过 专门 的 搜索 引擎 营销 公司 来 投 
放 。 不 过 ， 搜 索 广告 一 般 是 按照 CPC 结 算 的 ， 在 实际 效果 优化 方面 有 
比较 多 的 工作 要 做 。 除 了 搜索 广告 ， 我 们 要 特别 建议 的 是 : 

对 于 直接 效果 类 推广 需求 ， 需 要 特别 重视 垂直 的 行业 入 口 渠道 。 

这 里 的 垂直 的 行业 入 口 指 的 是 用 户 在 本 行业 相关 需求 主要 的 流量 
来 源 。 例 如 ， 对 于 应 用 下 载 行业 的 应 用 市 场 和 线 下 预 装 渠 道 、 对 于 手 
游行 业 的 联运 渠道 、 对 于 淘 内 电 商 的 聚 划算 渠道 、 对 于 线 下 商户 的 团 
购 渠 道 等 。 实 际 上 ， 这 样 的 垂直 行业 入 口 是 直 接 效果 类 推广 非常 关键 
的 渠道 ， 也 是 首要 的 选择 之 一 ， 因 此 我 们 在 图 8-2 中 重点 标示 出 来 。 在 
返利 网 也 可 以 达到 很 高 的 的 ROI 水 平 ， 有 时 甚至 还 会 高 于 搜索 广告 ， 
不 过 由 于 存在 大 量 广告 主 老 用 户 经 过 返利 网 下 单 的 情形 ， 其 实际 歼 
果 ， 特 别 是 在 获取 新 客 方面 的 效果 并 不 很 理想 。 

如 果 广 告 有 一 些 有 价值 的 第 一 方 数据 来 源 ， 并 且 有 一 定 的 技术 实 
力 将 其 加 工 利用 ， 那 么 除了 上 面 的 搜索 广告 、 展 示 广 告 网 络 等 渠道 
外 ， 还 可 以 考虑 利用 DSP 进 行 精准 的 、 定 制 化 的 人 群 选 择 和 投放 。 这 
里 应 该 选择 的 DSP 类 型 是 那些 效果 类 的 、 按 照 CPC 或 者 CPS/CPA 结 算 的 
DSP。 在 通过 DSP 投 放 时 ， 对 于 CRM 或 老 客 再 营销 类 需求 可 以 采用 重 


定向 的 策略 ， 对 于 新 客 的 拓展 和 和 营销， 可 以 采用 look-alike 的 策略 ;而 
对 于 那些 有 丰富 单 品 、 流 量 较 充 足 的 大 型 在 线 服 务 提 供 商 来 说 ， 还 可 
以 与 DSP 进 行 深度 的 数据 和 商品 库 对 接 ， 采 用 个 性 化 重 定向 的 方式 在 
广告 渠道 商 直接 展示 动态 的 单 品 创意 。 利 用 第 一 方 数据 的 精准 定向 ， 
从 效果 的 角度 来 看 ， 有 时 可 以 做 到 与 搜索 引擎 相 比 肩 的 水 平 ， 不 过 ， 
这 样 的 营销 对 于 广告 主 来 说 有 一 定 的 技术 门槛 ， 因 此 在 中 小 广告 主 中 
并 不 十 分 实用 。 

如 果 和 营销 的 目的 是 品牌 推广 而 非 直接 转化 ， 那 么 应 该 考虑 一 些 以 
用 户 接触 为 主 的 合约 广告 产品 。 我 们 在 第 4 章 中 介绍 过 ， 这 类 产品 有 按 
CPT 结 算 的 广告 位 合约 和 按 CPM 结 算 的 展示 量 合 约 。 如 果 广 告 宣传 的 
是 “ 双 十 一 ”促销 这 样 的 阶段 性 主题 活动 ， 那 么 一 些 强 曝光 位 置 上 的 CPT 

告 是 重要 的 选择 ， 如 果 是 一 般 性 的 品牌 推广 ， 并 且 结 合 有 特定 的 人 
群 策 略 ， 那 么 采 买 受众 定向 的 CPM 广 告 比较 合理 ， 不 过 有 时 ， 广 告 主 
确定 的 推广 策略 不 一 定 能 为 媒体 提供 的 受众 标签 所 表达 ， 在 这 种 情形 
下 ， 可 以 通过 DSP 按照 目 己 的 人 群 划分 在 ADX 中 投放 品牌 广告 。 这 
种 以 服务 品牌 广告 为 主 的 DSP 与 前 面 说 的 效果 类 DSP 有 所 不 同 ， 它 一 般 
采用 CPM 跟 广 告 主 结算 ， 并 向 广告 主 收取 一 定 比例 的 服务 费用 。 

在 当今 以 产品 技术 为 核心 的 互联 网 广告 市 场 中 ， 广 告 主 的 营销 也 
不 是 仅 靠 媒体 采 买 和 价格 谈判 完成 的 。 对 于 大 中 型 的 广告 主 来 说 ， 在 
上 面 各 种 营销 产品 的 使 用 过 程 中 ， 有 两 种 情况 需要 目 建 相关 的 技术 平 
台 。 首 先 ， 在 使 用 搜索 引擎 营销 时 ， 需 要 一 个 专门 的 选 词 、 出 价 及 优 
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化 ROI 的 产品 ， 尽 管 产品 服务 本 喘 可 以 从 市 场 上 购买 ， 但 是 与 广告 主 
自身 数据 的 对 接 以 及 行业 相关 入 上 略 的 制定 还 是 需要 大 量 细致 的 产品 技 
术 工 作 。 实 际 上 ， 对 于 大 型 电 商 这 样 的 广告 主 来 说 ，SEM 往 往 是 其 内 
部 非常 重要 的 产品 。 其次， 当 定 制 化 标签 的 投放 量 很 大 时 ， 广 告 主 可 
以 目 建 DSP 来 投放 广告 ， 相 比 于 采 买 其 他 DSP 的 服务 ， 这 样 做 在 数据 整 
合 、 效 采 优 化 方面 都 会 有 一 定 的 优势 ， 当 然 ， 如 采 DSP 广 告 量 不 是 很 
大 ， 这 样 做 的 必要 性 不 大 。 


8.3 方 实战 


在 线 广告 交易 使 得 那些 拥有 数据 、 但 是 既 不 是 广告 主 又 不 是 媒体 
的 组 织 也 可 以 参与 到 其 中 。 这 种 数据 提供 方 的 例子 有 很 多 。 例 如 ， 手 
机 游戏 流量 分 析 产 品 可 以 收集 到 与 游戏 相关 的 许多 数据 ， 汽 车 牌照 摇 
号 网 站 可 以 收集 到 近期 可 能 购车 的 非常 精准 的 人 群 数据 ， 电 信 运 营 商 
可 以 从 信道 上 得 到 用 户 的 网 站 访问 或 搜索 行为 数据 。 这 些 数 据 在 间 什 
地 考虑 用 户 隐 私 保护 以 后 是 可 以 服务 于 广告 投放 ， 从 而 获得 收益 的 。 
因此 ， 了 解 通过 广告 市 场 来 变现 这 些 数据 对 于 各 种 类 型 的 互联 网 企业 
都 非常 有 价值 。 

一 个 组 织 拥有 数据 并 不 等 于 数据 值得 变现 。 在 考虑 数据 变现 之 
前 ， 需 要 先 对 数据 的 价值 有 合理 的 评估 。 评 估 的 基本 方式 是 “用 户 数 x 
平均 用 户 价 值 ”。 这 里 的 用 户 数 ， 融 是 该 组 织 在 一 段 时 间 内 能 够 收集 到 
数据 的 用 户 总 量 ; 而 平均 用 户 价值 ， 束 是 单个 用 户 可 以 获得 的 广告 价 


值 ， 它 主要 被 RPM 水 平 、 单 个 用 户 被 广告 有 效 触及 的 展示 次 数 这 两 个 
因素 的 影响 。 其 中 RPM 反映 了 数据 的 价值 密度 ， 而 广告 触及 次 数 则 需 
要 通过 扩大 媒体 接触 来 实现 。 

如 果 确 认 拥 有 的 数据 有 商业 价值 ， 那 么 就 可 以 考虑 如 何 变现 了 。 
数据 提供 方 变现 决策 的 选择 如 图 8-3 所 示 。 一 般 来 说 ， 对 于 那些 数据 量 
有 限 、 不 太 值 得 自行 加 工 的 数据 拥有 者 来 说 ， 可 以 委托 其 他 DMP 加 工 
数据 ， 并 将 得 到 的 标签 通过 数据 交易 平台 在 广告 交易 的 过 程 中 售卖 ， 
对 于 大 量 的 中 小 互联 网 服务 提供 商 来 说 ， 这 是 一 个 简单 易 行 的 数据 变 
现 方案 。 不 过 ， 选 择 通用 的 DMP 往 往 很 难 发 掘 其 中 独特 的 价值 ， 因 此 
如 果 拥 有 大 量 高 价值 的 数据 ， 还 需要 考虑 其 他 的 变现 方案 。 

大 量 数 据 通过 广告 市 场 的 变现 可 以 通过 直接 运营 广告 产品 进行 ， 
也 可 以 通过 将 数据 售卖 给 需求 方 进行 。 关 于 这 一 点 ， 需 要 首先 根据 团 
队 能 力 、 媒 体 来 源 与 销售 计划 等 诸 方面 的 可 行 性 认真 评 佑 。 当 不 具备 
开发 和 运营 一 个 完整 广告 产品 的 能 力 时 ， 还 是 应 该 采用 直接 出 售 数据 
的 方案 。 需 要 特别 指出 ， 成 功 运 营 一 个 广告 产品 决 不 是 简单 地 搭建 一 
个 广告 系统 就 够 了 ， 而 是 需要 技术 、 产 品 与 商业 模式 上 的 贯通 与 执 
行 。 为 了 变现 数据 运营 广告 产品 ， 也 有 两 种 选择 : 当 拥 有 的 数据 集中 
在 某 个 人 群 覆 盖 率 有 限 但 价值 很 高 的 垂直 行业 (如 汽车 、 医 疗 等 ) 
时 ， 因 为 只 有 一 小 部 分 的 媒体 流量 可 以 被 数据 所 指导 ， 选 择 供给 端的 
产品 (如 SSP、ADN、ADX 等 ) 是 不 合适 的 ， 正 确 的 方案 是 搭建 一 个 
DSP， 并 且 选 择 那 些 数 据 可 以 履 盖 的 流量 出 价 以 变现 数据 ， 而 如 果 拥有 
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可 以 考虑 运 宫 一 个 广告 网 络 来 变现 数据 。 
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委托 其 他 DMP 通过 数据 交易 所 
加 工 数据 在 ADX 售 卖 标签 


图 8-3 数据 提供 方 变现 决策 过 程 示 意 
8.4 延伸 思考 


1. 对 于 一 个 直接 效果 类 广告 产品 ， 应 如 何 看 得 收入 、 利 泣 、 活 路 客 
户 数 这 些 指标 ? 其 中 哪个 指标 最 能 反映 该 产品 的 成 熟 程 度 ? 

2. 对 媒体 而 言 ， 短 期 广告 收入 和 长 期 品牌 价值 存在 着 一 定 的 矛盾 。 
为 媒体 变现 服务 的 供给 方 广告 平台 应 如 何 看 待 此 问题 ， 并 如 何 优 化 媒 
体 的 长 期 收益 ? 

ik 释 


:注意 ， 这 里 的 API 接口 并 不 是 需求 方 平台 即 DSP 使 用 的 实时 竞价 接口 。 


如 门户 网 站 首页 的 一 些 特 型 广告 位 。 


数据 来 源 于 艾 瑞 咨询 ， 参 见 http://mews.iresearch.cn/zt/241445.shtml 。 
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注意 这 是 基于 Google 全 球 市 场 的 统计 ， 这 甚至 接近 了 表 1-1 中 美国 市 场 总 的 在 线 广告 收入 规模 。 


也. 注意 

2]. 如 门 

3] 数 据 

4. 注意 这 

59]. 实时 竞价 将 在 第 6 章 中 介绍 。 
6] 这 里 

Jat 

8). GE 


$ 的 点 击 率 考虑 了 广告 而 未 考虑 位 置 和 其 他 因素 的 影响 ， 因 此 仅仅 是 示意 性 的 。 
.计算 中 忽略 了 公式 5.2 中 计价 时 多 加 的 A。 


,数据 来 源 : http://www.eMarketer.com ° 


[9]. 本 书 用 “定制 化 ”(customized) 一 词 来 表示 对 不 同 客户 的 不 同 结果 ， 而 用 “个 性 化 ”(personalized) 一 词 来 表示 对 不 同 用户 的 不 同 结果 o 
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Om 计算 广告 技术 概览 


对 在 线 广告 产品 的 介绍 到 上 一 章 就 告 一 段落 了 。 读 者 可 能 会 有 一 
种 感受 ， 在 计算 广告 中 ， 无 论 我 们 讨论 的 是 产品 还 是 策略 ， 都 与 技术 
的 关系 十 分 密切 。 这 有 走 因 为 这 个 市 场 本 质 上 有 征 计 算 驱 动 的 ， 而 计算 育 
后 的 能 源 正 是 大 规模 的 数据 。 从 这 一 章 开始 ， 我 们 将 从 系统 架构 和 数 
据 处 理 算法 的 角度 重新 审视 各 种 广告 产品 ， 希 望 能 对 需要 在 实际 工作 
中 具体 搭建 流量 变现 或 数据 变现 系统 的 读者 有 所 帮助 。 

有 很 多 大 数据 弛 动 的 产品 ， 束 其 技术 如 构 而 言 往往 都 落地 成 个 性 
化 系统 ， 即 根据 用 户 、 上 下 文 的 一 些 信息 动态 决定 返回 什么 内 容 的 系 
统 。 计 算 广 告 也 是 一 个 典型 的 个 性 化 系统 。 不 过 由 于 复杂 的 市 场 交易 
结构 、 多 样 的 数据 来 产 以 及 预算 市 来 的 约束 ， 计 算 广告 征 目 前 工业 办 
遇 到 的 个 性 化 系统 中 比较 复杂 的 ， 也 是 相对 成 熟 的 。 因 此 ， 无 论 您 在 
从 事 什么 类 型 的 大 数据 业务 ， 我 们 都 建议 您 从 计算 广告 系统 中 了 解 一 
些 关 键 技术 挑战 ， 并 和 擎 握 相 应 的 基本 设计 原则 。 

个 性 化 系统 与 搜索 系统 都 是 互联 网 时 代 具 有 挑战 性 的 大 规模 计算 
问题 。 由 于 数据 规模 的 要 求 ， 它 们 一 般 都 采用 检索 (retrieval) 加 排序 

(ranking) 这 样 类 搜索 的 系统 架构 ， 因 而 这 两 种 系统 有 非常 多 的 相似 
之 处 。 个 性 化 系统 与 搜索 系统 的 主要 差别 在 于 大 量 的 用 户 特 征 的 使 
用 。 由 于 需要 对 每 一 个 用 户 进行 刻画 ， 这 一 过 程 需要 用 到 大 规模 的 分 


布 式 数 据 处 理 平台 ， 如 Hadoop; 另外 ， 由 于 个 性 化 特征 的 效 末 与 其 生 
成 的 实时 性 关系 很 大 ， 为 了 尽 可 能 实时 地 利用 线 上 数据 ， 我 们 还 会 用 
到 流 计算 平台 来 加 工 短 时 的 个 性 化 特征 。 将 离线 的 分 布 式 计算 平台 和 
在 线 的 流 计算 平台 相 结 合 已 经 成 为 这 样 的 系统 生成 个 性 化 特征 的 常用 
方案 。 

虽然 计算 广告 系统 是 一 种 典型 的 个 性 化 系统 ， 不 过 由 于 其 业务 的 
特殊 性 ， 在 具体 模块 设置 上 会 比 一 般 的 个 性 化 系统 更 加 复杂 。 为 了 方 
便 后 面 各 广告 产品 的 系统 架构 和 算法 介绍 ， 本 章 会 给 出 一 个 示意 性 的 
广告 系 统统 一 染 构 。 虽 然 这 一 架构 中 的 模块 在 不 同 的 广告 产 品 中 有 取 
舍 和 变形 ， 它 仍然 对 于 从 宏观 上 把 握 广 告 系 统 的 全 貌 以 及 各 种 产品 在 
技术 方面 的 内 在 联系 有 一 定 的 价值 。 后 面 章节 有 关 各 种 广告 产品 的 织 
构 讨论 都 会 在 这 个 统一 架构 的 基础 上 进行 。 

在 互联 网 时 代 ， 搭 建 这 样 一 个 五 脏 俱全 的 广告 系统 实际 上 并 没有 
看 起 来 那么 复杂 。 这 里 最 关键 的 方法 是 要 充分 利用 开源 社区 的 成 熟 工 
具 快 速 搭 建 系统 框架 ， 把 抵 层 通信 、 资 源 分 配 、 集 群 管理 、 跨 语言 调 
度 等 与 核心 业务 逻辑 无 关 、 但 义 有 较 高 技术 难度 的 部 分 用 成 熟 方案 来 
解决 ， 这 样 广 告 系统 的 开发 者 距 可 以 重点 关注 业务 逻辑 和 核心 算法 
了 。 在 本 章 中 ， 我 们 也 将 对 选择 哪些 成 熟 的 开源 工具 快速 搭建 广告 系 


统 框架 做 一 些 介绍 。 


9.1 个 性 化 系统 框架 


计算 广告 是 根据 个 体 用 户 信 息 投 送 个 性 化 内 容 的 典型 系统 之 一 
类 似 的 系统 还 有 推荐 系统 、 个 人 征 信和 系统 以 及 室内 导航 系统 等 。 我 们 
发 现 ， 大 多 数 以 大 数据 为 核心 驱动 力 的 产品 往往 都 需要 一 个 这 样 的 个 
性 化 系统 ， 而 不 同 产 品 的 个 性 化 系统 之 间 存 在 着 许多 共同 点 。 在 介 
计算 广告 系统 的 架构 之 前 ， 我 们 先 来 了 解 一 般 的 个 性 化 系统 是 如 何 构 
成 的 。 

如 图 9-1 所 示 ， 一 般 的 个 性 化 系统 由 四 个 主体 部 分 构成 : 用 于 实时 
响应 请 求 ， 完 成 决策 的 在 线 投放 (online serving) 引擎 ， 离 线 的 分 布 式 
计算 (distributed computing) 数据 处 理 平 台 ; 用 于 在 线 实时 反馈 的 流 计 
算 (stream computing) 平台 ; 连接 和 转运 以 上 三 部 分 数据 流 的 数据 高 
速 公路 (data highway) 。 这 几 部 分 互相 配合 ， 完 成 个 性 化 系统 的 数据 
控 据 和 在 线 决 策 任务 。 


Hine A 


煞 据 高速 公 中 


A A dum 


图 9-1 个 性 化 系统 一 般 框架 


这 几 部 分 的 协作 流程 是 : 在 线 投放 系统 的 日 志 接 入 数据 高 速 公 
路 ， 再 由 数据 高 速 公 路 快速 转运 到 离线 数据 处 理 乎 台 和 在 线 流 计 算 平 
台 ; 离线 数据 处 理 平台 周期 性 地 以 批 处 理 方式 加 工 过 去 一 段 时 间 的 数 
据 ， 得 到 人 群 标 签 和 其 他 模型 参数 ， 存 放 在 高 速 缓存 中 ， 供 在 线 投 放 
系统 决策 时 使 用 ， 与 此 相对 应 ， 在 线 流 计算 平台 则 负责 处 理 最 近 一 小 
段 时 间 的 数据 ， 得 到 准 实时 的 用 户 标签 和 其 他 模型 参数 ， 也 存放 在 高 
速 级 存 中 ， 供 在 线 投 放 系 统 决 策 时 使 用 ， 这 些 是 对 离线 处 理 结果 的 及 
时 补充 和 调整 。 可 以 看 出 ， 整 个 系统 形成 了 一 个 财 环 的 决策 流程 ， 而 
这 个 闭环 在 搭建 完成 后 ， 基 本 依靠 机 器 的 运算 来 运转 ， 人 的 作用 只 是 
进行 策略 上 的 调整 和 控制 。 实 践 证 明 ， 这 样 的 闭环 系统 是 有 效 全 量 利 
用 大 数据 的 关键 。 

还 有 一 点 需要 强调 ， 由 于 个 性 化 需要 的 是 对 用 户 尽 可 能 准确 的 理 
解 ， 因 此 除了 个 性 化 系统 本 身 的 日 志 ， 一 般 都 还 会 用 到 其 他 的 业务 线 
数据 或 采 买 得 到 的 数据 ， 这 些 数 据 都 会 进入 数据 高 速 公 路 以 及 后 续 的 
加 工 流程 中 。 因 此 ， 在 同一 个 企业 中 ， 我 们 会 在 不 同 的 业务 之 间 尽 可 
能 共 至 离线 和 在 线 的 两 个 计算 平台 以 及 所 有 的 用 户 行为 数据 。 

各 种 个 性 化 系统 之 间 有 上 述 的 共性 ， 不 过 由 于 其 数据 来 源 、 产 品 
形态 、 优 化 目标 的 不 同 ， 系 统 架 构 的 细节 也 会 呈现 出 很 大 的 差别 。 我 
们 以 最 典型 的 两 种 个 性 化 系统 ， 即 计算 广告 和 个 性 化 推荐 以 及 不 需要 
深度 个 性 化 的 搜索 系统 为 例 ， 比 较 这 几 个 Web-Scale 问 题 在 不 同方 面 的 


区 别 ， 如 表 9-1 所 示 。 而 这 些 区 别 ， 是 决定 它们 系统 架构 不 同 的 关键 原 
[E] o 
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9.2 广告 系统 优化 目标 


广告 系统 的 优化 目标 是 提高 广告 产品 的 利润 ， 也 束 是 第 2 章 中 所 
到 的 计算 广告 核心 挑战 : 


T 
T= Bi -on 
Qj... 
E (9.1) 
= max ) ui. uj, Ci)  v(a;, Ui) — g(a, ui, c;)] 
1 RAT GA LA 


i=] 
任何 一 个 具体 的 计算 广告 系统 ， 都 是 为 了 优化 上 面 的 目标 而 设计 
的 。 对 应 于 上 一 节 的 个 性 化 系统 一 般 框架 ， 在 广告 系统 中 ， 每 次 展示 


的 r 是 由 在 线 的 投放 引擎 来 决策 的 ， 而 离线 数据 处 理 平 台 和 流 计 算 平 台 
所 做 的 都 是 为 了 准备 a，u，c 这 三 个 变量 或 其 组 合 的 一 些 特征 。 

在 不 同 的 广告 产品 中 ， 上 述 优 化 目标 会 具体 表现 为 不 同 的 形式 ， 
并 且 有 时 会 有 额外 的 约束 。 表 9-2 中 列 出 了 主要 广告 产品 中 优化 目标 各 
部 分 的 具体 表达 。 

在 展示 量 合约 的 GD 系统 中 ， 只 要 各 合约 达成 ， 系 统 的 收益 是 确 
定 的 ， 因 此 这 一 系统 的 主要 优化 在 于 满足 各 合约 市 来 的 约束 ， 而 成 本 
由 于 是 媒体 静态 产生 ， 与 广告 优化 过 程 无 天 ， 可 以 认为 是 常数 ; ADN 
需要 估计 点 击 率 h (a, u, c) ， 并 与 广告 主 出 的 点 击 单 价 bid,。(a) TH 
乘 得 到 期 望 收 入 ， 而 成 本 是 与 收入 成 正比 的 媒体 分 成 ADX 直接 用 广 
告 主 出 的 展示 单价 bidu，(a) 作为 期 望 收 入 ， 成 本 也 是 与 收入 成 正比 的 
媒体 分 成 ， 只 有 在 DSP 中 ， 点 击 率 h (a, u c) 、 点 击 价值 (a, u) 
和 成 本 q (a, u, c) 都 可 能 是 需要 预 估 和 优化 的 ， 因 此 算法 的 挑战 较 
大 。 


表 9-2 主要 广告 产品 优化 目标 分 解 
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9.3 计算 广告 系统 架构 


根据 广告 的 核心 优化 问题 和 上 面 个 性 化 系统 的 一 般 框架 ， 我 们 抽 
象 出 一 个 完整 的 广告 系统 可 能 具备 的 各 个 模块 以 及 这 些 模块 之 间 的 协 
作 关 系 ， 用 图 9-2 中 的 架构 框架 来 搬 述 。 这 一 染 构 图 将 是 后 面 讨论 各 种 
广告 产品 系统 结构 的 统一 基础 。 我 们 在 下 面 分 儿 个 部 分 介绍 该 染 构 中 
的 功能 模块 。 

需要 说 明 ， 并 不 是 每 一 个 广告 系统 都 需要 以 上 所 有 的 功能 模块 。 
这 样 的 染 构 图 和 模块 划分 是 为 了 方便 本 书后 面 在 各 种 广告 系统 之 间 进 
行 染 构 上 的 对 比 。 男 外 ， 这 样 的 架构 主要 是 根据 竞价 广告 系统 的 骨 下 
来 进行 的 ， 对 于 其 他 类 型 的 广告 系统 ， 虽 然 概 念 上 也 可 以 套用 ,但 是 
术语 和 习惯 表达 上 会 有 一 些 不 同 。 大 家 要 注意 的 最 关键 之 处 是 ， 在 一 
个 完整 的 广告 系统 架构 中 ， 数 据 的 记录 、 交 易 、 流 转 、 建 模 和 使 用 ， 


BH 


为 这 些 是 广告 系统 最 核心 的 驱动 力 ， 也 从 本 质 上 决定 了 广告 产品 的 
变现 能 力 和 利润 空间 。 因 此 ， 我 们 将 广告 系统 归于 大 数据 产品 之 列 。 

在 实践 中 ， 广 告 系统 的 建立 应 该 是 循序 渐进 的 。 一 般 来 说 ， 对 一 
个 刚 起 步 的 广告 产品 ， 有 广告 投放 机 和 相应 的 日 志 系 统 ， 实 现 简 单 的 
定向 投放 逻辑 ， 就 可 以 开始 使 用 。 随 着 对 广告 效果 深入 优化 的 需求 ， 
需要 建立 起 完整 的 广告 排序 和 用 户 行为 反馈 模型 ， 而 当中 小 广告 主 大 
量 增加 时 ， 束 需要 实现 广告 的 倒 排 索引 和 相应 的 检索 功能 。 因 此 ， 在 
一 个 新 的 广告 产品 开始 运营 和 逐步 完善 的 过 程 中 ， 要 特别 注意 根据 当 
前 阶段 的 实际 需求 决定 哪些 模块 是 必要 的 ， 哪 些 可 以 暂时 省 略 ， 以 避 
免 过 度 设 计 和 不 必要 的 投入 。 

9.3.1 广告 投放 引擎 

广告 系统 中 必 不 可 少 的 部 分 是 一 个 实时 啊 应 广告 请 求 ， 并 决策 广 
告 的 投放 引 警 ， 这 与 我 们 在 个 性 化 系统 框架 中 介绍 的 个 性 化 投放 引擎 
一 致 。 一 般 来 说 ， 广 告 系统 的 投放 引擎 采用 类 搜索 的 架构 ， 即 检索 加 
排序 的 两 阶段 决策 过 程 。 另 外 ， 广告 投放 引擎 还 有 一 个 独特 模块 ， 就 
是 要 从 全 局 优化 的 角度 对 整体 收益 进行 管理 。 广 告 投放 引擎 主要 有 以 
下 几 个 模块 。 
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图 9-2 在 线 广告 系统 一 般 性 架构 示意 
(1) 广告 投放 机 (ad server) 。 这 是 接受 广告 前 端 Web 服 务 器 发 
来 的 请 求 ， 完 成 广告 投放 决策 并 返回 最 后 页 面 片段 的 主 逻 辑 。 广 告 投 
放 机 的 主要 任务 是 与 其 他 各 个 功能 模块 打交道 ， 并 将 它们 串联 起 来 完 
成 在 线 广告 投放 决策 。 一 般 来 说 ， 为 了 扩展 性 的 考虑 ， 我 们 都 采用 类 
搜索 的 投放 机 架构 ， 即 先 通过 倒 排 索引 从 大 量 的 广告 候 选中 得 到 少量 


符合 条 件 的 或 相关 的 候选 ， 再 在 这 个 小 的 候选 集 上 应 用 复杂 而 精确 的 
排序 方法 找到 综合 收益 最 高 的 春 干 个 广告 。 对 广告 投放 机 来 说 ， 最 重 
要 的 指标 是 每 秒 查 询 数 (Query per Second, QPS) 以 及 广告 决策 的 延 
迟 (latency) ° 

(2) 广告 检索 (ad retrieval) 。 这 部 分 的 主要 功能 在 线 时 根据 用 
户 标签 (userattributes) 与 页 面 标签 (page attributes) 从 广告 索引 (ad 
index) 中 查找 符 合 条 件 的 广告 候选 。 实 际 上 ， 倒 排 索引 技术 的 重要 性 
体现 在 所 有 Web 规 模 的 技术 挑战 上 ， 也 同样 是 大 规模 计算 广告 系统 的 基 
础 。 广 告 检索 得 到 的 候选 将 被 送 入 广告 排序 模块 。 

(3) 广告 排序 (ad ranking) 。 这 部 分 是 在 线 高 效 地 计算 广告 的 
eCPM， 并 进行 排序 的 模块 。eCPM 的 计算 主要 依赖 于 点 击 率 估计 ， 这 
需要 用 到 离线 计算 得 到 的 CTR 模 型 和 特征 (CTR Model&Features) ， 
有 时 还 会 用 到 流 计算 得 到 的 实时 点 击 率 特征 (real-time features) 。 在 
需要 估计 点 击 价值 的 广告 产品 (如 按 效果 结算 的 DSP) 中 ， 还 需要 一 个 
点 击 价值 估计 的 模型 。 

(4) 收益 管理 (yield management) 。 我 们 用 这 部 分 来 统一 代表 在 
各 种 广告 系统 中 将 局 部 广告 排序 的 结果 进一步 调整 ， 以 全 局 收益 最 优 
为 目的 做 调整 的 功能 ， 如 GD 系统 中 的 在 线 分 配 、DSP 中 的 出 价 策略 
等 。 这 部 分 一 般 都 需要 用 到 离线 计算 好 的 某 种 分 配 计划 来 完成 在 线 时 
的 决策 。 


(5) 广告 请 求 接口 。 实 际 系统 中 ， 根 据 前 端 接口 形式 的 不 同 ， 广 
告 请 求 可 能 来 自 于 基于 HTTP 的 Web 服 务 器 ， 也 可 能 来 自 于 移动 Appl 
的 SDK， 或 者 其 他 类 型 的 API 接 口 。 不 论 哪 种 接口 ， 只 要 能 够 提供 用 
户 唯 一 的 身份 标识 ID 以 及 其 他 一 些 上 下 文 信息 ， 从 逻辑 上 讲 与 标准 的 
HTTP 请 求 就 没有 本 质 区 别 ， 因 此 我 们 都 用 Web 服 务 器 来 表示 。 
程序 化 交易 市 场 中 的 广告 请 求 接口 与 上 面 有 所 不 同 ， 它 包括 作为 
需求 方 时 使 用 的 RTBS 以 及 作为 供给 方 时 使 用 的 RTBD。 这 一 接口 可 以 
采用 IAB 建 议 的 OpenRTB 协 议 或 者 其 他 主要 ADX 规 定 的 接口 形式 。 
(6) 定制 化 用 户 划 分 (customized audience segmentation) 。 由 于 
告 是 媒体 蔡 广 告 主 完成 用 户 接 触 ， 那 么 有 时 需要 根据 广告 主 的 逻辑 
来 划分 用 户 群 ， 这 部 分 也 是 具有 鲜明 广告 特色 的 模块 。 这 个 部 分 指 的 
是 从 广告 主 处 收集 用 户 信 息 的 产品 接口 ， 而 收集 到 的 数据 如 果 需 要 较 
复杂 的 加 工 ， 也 将 经 过 数据 高 速 公 路 导入 受众 定向 模块 来 完成 。 


9.3.2 公 
数据 高 速 公 路 完成 的 功能 是 将 在 线 投放 的 数据 准 实 时 传输 到 离线 
分 布 式 计算 平台 与 流 计算 平台 上 ， 供 后 续 处 理 和 建 模 使 用 ， 它 非常 类 
似 于 人 体 的 循环 系统 。 由 于 在 进行 受众 定向 建 模 时 需要 用 到 广告 系统 
以 外 的 其 他 用 户 产 品 日 志 或 者 第 三 方 提 供 的 数据 ， 因 此 ， 数 据 高 速 公 
路 也 担负 着 收集 这 些 数据 源 的 任务 。 


计算 广告 最 具 挑 战 的 算法 问题 大 多 都 集中 在 离线 数据 处 理 的 部 

分 。 离 线 数据 处 理 有 两 个 输出 目标 : 一 是 统计 日 志 得 到 报表 、 
dashboard 等 ， 供 决策 人 进行 决策 时 作为 参考 ， 二 是 利用 数据 挖掘 、 机 
锋 学 习 拉 术 进 行 受众 定 同 、 扩 击 率 预 舍 、 分 配 策 略 规划 等 ， 为 在 线 的 
机 妖 决 岳 提 供 支 持 。 为 了 对 大 规模 数据 进行 分 布 式 的 处 理 加 工 ， 我 们 
一 般 会 选用 Hadoop 这 样 的 分 布 式 存储 和 MapReduce 计 算 框架 。 离 线 数 
据 处 理 有 下 面 几 个 主要 模块 。 

(1) 用 户 会 话 日 志 生 成 。 从 各 个 渠道 收集 的 日 志 需 要 先 整理 成 以 
用 户 了 D 为 链 的 统一 存储 格式 ， 这 样 的 日 志 称 为 用 户 会 话 日 志 (session 
log) 。 这 样 整理 的 目的 是 为 了 让 后 续 的 受众 定向 过 程 更 加 简单 高 效忠 。 

(2) 行为 定向 (behaviorial targeting) 。 这 部 分 功能 完成 挖掘 用 户 
日 志 ， 根 据 日 志 中 的 行为 给 用 户 打 上 结构 化 标签 库 (structural label 
base) 中 的 某 些 标签 ， 并 将 结果 存储 在 用 户 标签 的 在 线 缓存 中 ， 供 广告 
投放 机 使 用 。 这 部 分 是 计算 广告 的 原材料 加 工厂 ， 也 因此 在 整个 系统 
中 具有 非常 天 键 的 地 位 。 

(3) 上 下 文 定 向 (contextual targeting) 。 这 部 分 包括 半 在 线 页 面 
抓 取 (near-Line page Fetcher) 和 上 下 文 页 面 标签 的 缓存 ， 与 行为 定向 
互相 配合 ， 负 责 给 上 下 文 页 面 打上 标签 ， 用 于 在 线 的 广告 投放 中 。 这 
里 的 抓 取 系 统 比 搜索 系统 要 简单 ， 但 也 有 不 太一 样 的 需求 ， 后 面 会 详 


细 介 绍 。 


(4) 点 击 率 建 模 (click modeling) 。 它 的 功能 是 在 分 布 式 计算 平 
台 上 训练 得 到 点 击 率 的 模型 参数 和 相应 特征 (click model&features) ， 
加 载 到 缓存 中 供 线 上 投放 系统 决策 时 使 用 。 

(5) 分 配 规划 (planning) 。 这 部 分 为 在 线 的 收益 管理 模块 提供 
服务 ， 它 根据 广告 系统 全 局 优化 的 具体 需求 ， 利 用 离线 日 志 数 据 进行 
规划 ， 得 到 适合 线 上 执行 的 分 配方 案 (allocation plan) ° 

(6) 商业 智能 (business intelligence, BI) 系统 。 这 部 分 包括 
Extract-Transform-Load (ETL) 过 程 、dashboard 和 cube， 这 些 是 所 有 
以 人 为 最 终 接口 的 数据 处 理 和 分 析 流 程 的 总 括 ， 担 负 着 对 外 信息 交流 
的 任务 。 由 于 实际 的 广告 运营 不 可 能 完全 通过 机 器 的 决策 来 进行 ， 其 
间 必 然 需 要 有 经 验 的 运营 者 根据 数据 反馈 对 一 些 系统 设置 及 时 调整 。 
因此 ， 实 现 一 个 功能 强大 、 交 互 便利 的 BI 系统 是 非常 重要 的 。 

(7) 广告 管理 系统 。 这 部 分 是 广告 操作 者 ， 即 客户 执行 
(Account Execute, AE) 与 广告 系统 的 接口 。AE 通 过 广告 管理 系统 定 
制 和 调整 广告 投放 ， 并 且 与 数据 仓库 交互 ， 获 得 投放 统计 数据 以 文 持 
决策 。 一 般 来 说 ， 广 告 系统 中 只 有 这 部 分 是 面向 用 户 的 产品 。 根 据 对 
操作 对 象 开放 程度 的 不 同 ， 这 一 系统 有 时 又 有 开放 自助 的 需求 ， 在 这 
种 情况 下 ， 还 需要 包含 相应 的 财务 结算 功能 。 对 这 部 分 ， 读 者 可 以 从 
很 多 目 助 式 广 告 产品 中 看 到 ， 我 们 在 第 3 革 中 已经 进行 了 简单 介绍 。 


在 线 数据 处 理 基本 上 可 以 认为 是 离线 数据 处 理 的 镜像 功能 ， 写 是 
为 了 满足 广告 系统 对 实时 数据 反馈 的 要 求 ， 解 决 那 些 离线 分 布 式 计 算 
平台 无 法 快速 啊 应 的 计算 问题 。 为 了 组 织 下 面 一 些 在 线 时 前 后 有 依赖 
关系 的 数据 流 加 工 过 程 ， 我 们 经 和 常 选用 流 式 管理 平台 作为 基础 设施 。 
在 线 数据 处 理 主要 包括 以 下 模块 。 

(1) ÆREN (anti-spam) 。 实 时 判断 流量 来 源 中 是 否 有 作 鉴 
流量 ， 并 且 将 这 部 分 流量 从 后 续 的 计价 和 统计 中 去 除 掉 ， 是 广告 业务 
非常 重要 的 部 分 。 此 模块 是 所 有 后 续 在 线 数据 处 理 必须 经 过 的 前 置 模 
块 。 


(2) 计 费 (billing) 。 这 部 分 同样 是 计算 广告 关键 的 业务 功能 
一 。 对 于 那些 经 过 扣 费 预算 耗 尽 的 广告 ， 系 统 必 须 马 上 通知 广告 索引 
系统 将 其 下 线 。 当 然 ， 扣 费 也 必须 在 扣除 了 作 浆 流量 的 基础 上 进行 。 

(3) 在 线 行为 反馈 ， 包 括 实时 受众 定向 (real-time targeting) 和 
实时 点 击 反馈 (realtime click feedback) 等 部 分 。 这 部 分 是 将 短 时 内 发 
生 的 用 户 行为 和 广告 日 志 及 时 地 加 工 成 实时 用 户 标签 以 及 实时 的 点 击 
率 模型 特征 。 对 于 在 线 广告 系统 ， 这 部 分 对 于 效果 提升 的 意义 重大 : 
在 很 多 情形 下 ， 把 系统 信息 反馈 调整 做 得 更 快 比 把 模型 预测 做 得 更 准 
确 效果 更 加 显著 。 

(4) 实时 索引 (real-time indexing) 。 这 部 分 的 主要 功能 是 实时 接 
受 广 告 投放 数据 ， 建 立 倒 排 索 引 。 广 告 的 索引 由 于 涉及 预算 调整 等 商 


业 环 市 ， 因 此 必须 在 投放 管理 着 调整 以 后 非常 快速 地 在 线 上 广告 索引 
Tn 


9.4 计算 广告 系统 主要 技术 


了 解 了 计算 广告 的 优化 日 标 和 系统 架构 ， 我 们 再 来 看 看 这 一 系统 
会 用 到 哪些 关键 的 技术 。 实 际 上 ， 上 一 市 介绍 的 广告 系统 架构 也 是 由 
这 些 技术 问题 决定 的 ， 而 这 些 也 给 我 们 提示 了 实践 中 需要 重点 关注 并 
优化 的 方 同 。 

从 算法 优化 的 角度 看 ， 主 要 有 下 面 的 一 些 问题 ,解决 这 些 问题 需 
要 广泛 用 到 机 璐 学习 、 数 据 控 掘 等 一 些 相关 学 科 的 技术 。 

(1) 公式 2.2 中 的 特征 提取 ， 即 对 (a, u, c) 打 标 签 以 方便 后 续 
建 模 和 市 场 售 卖 的 问题 ， 是 计算 广告 中 非常 核心 的 受众 定向 问题 (A 
见 第 12 章 ) 。 

(2) 如 果 不 考 虑 全 局 最 优 ， 计 算 广告 系统 主要 靠 eCPM 估 计 ， 特 
别 是 点 击 率 预测 (参见 13.5 节 ) 来 完成 每 一 次 展示 时 的 局 部 优化 。 

(3) 如 果 考 虑 到 量 的 约束 和 投放 时 即时 决策 的 要 求 ， 则 产生 了 在 
线 分 配 的 问题 《参见 11.3 节 ) 。 

(4) 为 了 在 多 方 博 府 的 市 场 中 达到 动态 平衡 时 的 收益 最 大 化 ， 则 
需要 对 市 场 的 机 制 设 计 (mechanism design) ” (参见 5.2 节 ) 深入 人 研究 ， 
进而 确定 合理 的 定价 策略 。 


(5) 为 了 更 全 面 地 采样 整个 (a，u，c) 的 空间 以 便 更 准确 地 估 
计 点 击 率 ， 需 要 用 到 强化 学 习 (reinforcement learning) 中 的 探索 与 利 
用 (explore and exploit, E&E) (参见 13.6 节 ) 方法 。 

(6) 在 实时 竞价 快速 发 展 的 今天 ， 个 性 化 推荐 (personalized 
recommendation) 技术 也 被 广泛 使 用 在 效果 类 DSP 的 个 性 化 重 定向 中 
(参见 14.2 节 ) ° 

从 系统 架构 的 角度 看 ， 大 规模 广告 决策 和 投放 有 如 下 一 些 特点 : 
首先 是 服务 压力 大 ， 这 是 由 于 广告 的 投放 量 往往 数 倍 于 页 面 浏览 的 
PV， 这 使 得 广告 成 为 互联 网 流量 规模 最 大 的 产品 之 一 ; 其次， 因为 用 
户 对 广告 产品 接受 是 被 动 的 ， 广 告 展现 延迟 的 增加 往往 会 带 来 广告 效 
果 的 显著 下 降 ， 因 此 广告 系统 的 决策 延迟 是 非常 关键 的 指标 ;从 男 一 
方面 看 ， 也 正 因为 广告 是 被 动 的 用 户 产 品 ， 其 决策 结果 的 逻辑 性 不 直 
接 ， 因 此 广告 系统 在 用 户 标 签 的 数据 一 致 性 方面 要 求 是 比较 低 的 ， 也 
往往 并 不 需要 持久 化 的 存储 ， 这 为 系统 设计 提供 了 一 定 的 灵活 性 。 计 
算 广告 在 系统 架构 方面 涉及 以 下 一 些 技术 问题 。 

(1) 由 于 广告 主 的 预算 、 定 向 条 件 等 信息 在 设置 后 需要 快速 在 线 
上 生效 ， 需 要 用 实时 索引 技术 服务 于 广告 候选 的 检索 。 

(2) 需要 用 NoSQL 数 据 库 为 投放 时 提供 用 户 、 上 下 文 标签 和 其 他 
特征 。 

(3) 广泛 使 用 Hadoop 这 样 的 MapReduce 分 布 式 计算 平台 进行 大 规 
模 数 据 挖掘 和 建 模 ， 也 用 到 流 计算 平台 实现 短 时 用 户 行为 和 点 击 反 


(4) 在 广告 交易 市 场 中 实现 高 并 发 、 快 速 响应 的 实时 竞价 接口 ， 
这 是 一 项 广告 中 用 到 的 独特 技术 。 

上 述 这 些 技术 与 大 数据 、 分 布 式 计算 等 领域 中 的 一 些 通 用 技术 有 
紧密 的 联系 ， 但 也 有 很 多 结合 广告 产品 特点 的 独特 需求 。 我 们 将 会 在 
介绍 具体 的 广告 产品 时 ， 结 合 相 应 的 上 下 文具 体 讨论 。 

有 关 这 些 技 术 需 要 了 解 的 一 些 基础 知识 将 在 下 一 章 简 要 介绍 。 当 
然 ， 本 书 并 不 是 专门 讨论 机 器 学 习 或 信息 检索 的 教程 ， 因 此 大 家 不 要 
期 望 在 这 里 能 系统 地 学 习 到 这 些 领域 的 知识 。 我 们 的 目标 是 从 商业 的 
需求 出 发 ， 解 痢 问 题 的 本 质 ， 并 给 出 代表 性 的 解决 方案 。 同 时 ， 在 用 
到 其 他 工业 界 已 经 成 熟 的 技术 时 ， 会 尽量 给 出 建议 的 参考 方案 ， 以 方 
便 大 家 进一步 深入 了 解 。 
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9.5 用 开源 工具 Et 广告 系统 


上 面 的 广告 系统 架构 模块 众多 、 交 互 复 杂 ， 从 头 搭建 并 不 容易 。 
在 大 型 互联 网 公司 中 ， 这 样 的 广告 系统 可 以 精 雕 细 琢 ， 其 中 的 很 多 模 
块 也 都 可 以 进行 专门 开发 。 不 过 ， 对 于 初创 型 企业 和 变现 业务 方向 尚 
需 探 索 的 企业 来 说 ， 需 要 根据 最 小 值 原型 (Minimum Value Prototype, 
MVP) 的 原则 ， 低 成 本 、 短 平 快 地 搭建 系统 ， 然 后 在 实际 业务 中 进行 
快速 迄 代 。 幸 运 的 是 ， 开 源 社区 为 搭建 广告 系统 提供 了 很 多 不 错 的 工 
具 ， 利 用 这 些 工具 可 以 相当 方便 地 搭建 起 一 个 广告 系统 基础 骨架 。 一 


般 来 说 ， 我 们 可 以 利用 成 熟 开 源 工 具 解决 底层 通信 、 数 据 传输 、 负 载 
分 配 等 基础 问题 ， 从 而 将 精力 重点 放 在 与 业务 逻辑 相关 的 开发 上 。 

图 9-3 标 示 出 了 计算 广告 系统 中 经 第 用 到 的 一 些 开 源 工具 ， 为 了 方 
便 读 者 在 实际 工作 中 的 需要 ， 我 们 将 简要 介绍 一 些 主要 工具 在 广告 系 
统 中 的 用 法 。 


9.5.1 Web 服务 器 Nginx 


NGINX 


我 们 先 从 在 线 投放 时 用 到 的 Web 服 务 器 说 起 。 由 于 广告 系统 有 高 
并 发 、 低 延迟 的 性 能 要 求 ，Nginx (http://www.nginx.org) 在 多 数 情形 
下 都 是 广告 系统 首选 的 Web 服务 右 解 决 方案 。 

Nginx TTR ae EF, AR HTTP 服务 做 和 反问 代理 服务 
器 的 功能 。 其 主要 特点 在 于 高 性 能 、 高 并 发 和 低 内 存 消 耗 ， 并 且 具 有 
负载 均衡 、 高 速 绥 存 、 访 问 控 制 、 融 宽 控 制 以 及 高 效 整 合 各 种 应 用 的 
能 力 ， 这 些 特性 使 得 Nginx 非常 适合 计算 广告 这 种 并 发 很 高 的 互联 网 


cn 
d 
R 


Nginx 还 提供 了 fastCGI 这 一 与 各 种 编程 语言 之 间 的 通信 接口 ， 开 发 
首 可 以 很 方便 地 将 服务 絮 的 功能 逻辑 用 fastCGI 插件 的 形式 实现 ， 而 无 
需 关 注 啊 应 HTTP 请 求 的 细节 。 在 广告 系统 中 ， 用 Nginx 作 为 前 端 Web 
服务 器 ， 而 将 广告 投放 机 的 功能 用 C/C++ 语言 实现 成 fastCGI Hatt, Æ 
一 个 开发 成 本 较 低 、 性 能 义 很 不 错 的 方案 。 实际 上 ， 这 一 方案 已 经 实 


现 了 一 个 基本 的 广告 投放 机 ， 从 事 最 简单 的 广告 投放 业务 ， 而 其 他 模 
块 和 功能 则 可 以 根据 需求 逐步 开发 。 
AR Nginx 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [70]。 


他 的 相关 开源 工具 还 有 Apache (http://httpd.apache.org ) 
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图 9-3 计算 广告 系统 用 到 的 开源 工具 示意 


由 于 广告 系统 的 流量 很 大 ， 单 台 广 告 投 放 机 往往 不 能 满足 需要 。 
在 使 用 多 台 服 务 器 的 时 候 ， 会 遇 到 很 多 诸如 配置 文件 更 新 、 集 群 上 下 
线 管 理 等 分 布 式 环境 下 的 同步 问题 。 ZooKeeper 
(http://zookeeper.apache.org) 是 解决 这 些 问题 非常 有 用 的 开源 工具 。 

ZooKeeper 是 为 分 布 式 应 用 建立 更 高 层次 的 同步 

(synchronization) 、 配 置 管理 (con-figuration maintenance) 、 群 组 
(groups) 以 及 名 称 服务 (naming) 的 通用 工具 。 它 的 基础 原理 是 参 
文献 [49] 中 的 Paxos 算法 ， 而 这 一 算法 最 早 的 工业 界 应 用 是 Google 开 
发 的 Chubby。 在 编程 上 ，ZooKeeper 的 设计 很 简单 。 所 使 用 的 数据 模 
型 非常 类 似 于 文件 系统 的 目录 树 结 构 ， 简 单 来 说 ， 有 点 类 似 于 Windows 
中 注册 表 的 结构 ， 有 名 称 、 树 节点 、 键 / 值 对 等 ， 可 以 看 作 一 个 树 形 结 
构 的 数据 库 ， 可 以 分 布 在 不 同 的 机 器 上 做 名 称 管 理 。 由 于 ZooKeeper 并 

不 传递 计算 数据 而 是 传递 下 点 的 运行 状态 ， 所 以 运行 负载 很 低 。 

对 广告 投放 机 进行 集群 管理 是 ZooKeeper 在 广告 系统 中 的 典型 应 

用 之 一 : 由 于 某 台 服务 器 宕 机 或 者 新 机 器 上 线 ，Nginx 的 负载 均衡 方案 


需要 及 时 作出 调整 。 显 然 ， 人 工地 维护 响应 时 间 较 长 ， 不 可 避免 地 会 
带 来 一 些 流量 上 的 损失 。 利 用 ZooKeeper 的 Ephemeral 类 型 节点 可 以 很 
方便 地 实现 此 功能 ， 这 方面 的 参考 资料 很 多 ， 本 书 不 具体 介绍 。 

由 于 在 广泛 使 用 的 Hadoop、HBbase、Storm、Flume 等 开源 产品 中 
都 需要 用 到 ZooKeeper 进 行 分 布 式 同步 ， 如 有 果 把 上 述 开 源 产 品 看 作 各 种 
小 动物 ，ZooKeeper 这 一 命名 可 以 说 非常 形象 。 有 关 ZooKeeper 更 详细 
的 介绍 和 使 用 方法 可 以 参考 参考 文献 [44] © 


9.5.3 S Lucene 


大 多 数 广告 业务 在 初始 运营 阶段 并 不 见得 需要 一 个 真正 的 倒 排 检 
索引 擎 ， 不 过 当 广 告 业 务 开 始 面向 长 尾 广 告 主 ， 广 告 库 规模 较 大 时 ， 
采用 “ 倒 排 检索 * 加 “排序 ”这 样 的 两 段 式 决策 过 程 是 必要 的 (参见 10.1.1 
T) 。 然 而 ， 实 现 一 个 功能 全 面 、 效 率 较 高 的 倒 排 索引 并 不 是 一 件 简 
单 的 事 ， 并 且 由 于 其 与 核心 业务 逻辑 关系 并 不 大 ， 也 可 以 用 开源 方案 
来 实现 。 

在 开源 工具 中 ，Lucene (http://lucene.apache.org) 是 比较 常用 的 基 
于 Java 的 全 文 检索 工具 包 。Lucene 并 不 是 一 个 完整 的 搜索 引擎， 但 是 
针对 计算 广告 系统 的 需要 ， 它 可 以 方便 地 实现 全 文 索引 和 检索 功能 。 
Lucene 能 够 为 文本 类 型 的 数据 建立 索引 ， 其 主要 功能 是 替 文档 中 的 每 
个 关键 词 建立 索引 。 另 外 ，Lucene 还 提供 一 组 解读 、 过 滤 、 分 析 文 


档 ， 编 排 和 使 用 索引 的 API。 我 们 选用 Lucene， 除 了 它 的 高 效 和 简单 
外 ， 还 因为 它 允 许 用 户 对 其 中 的 关键 环节 自 定 义 功 能 逻辑 。 不 过 一 些 
特殊 的 检索 算法 ， 如 第 13 章 中 要 介绍 的 相关 性 检索 ， 在 Lucene 中 并 不 
能 直接 支持 ， 还 需要 在 深入 理解 源 代码 的 基础 上 改动 或 者 另行 开发 。 
有 关 Lucene 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [57] 。 

在 需要 比较 强 的 索引 扩展 性 的 情形 下 ， 还 可 以 考虑 使 用 
ElasticSearch (http://www.elasticsearch.org) ， 这 是 一 个 基于 Lucene 构 
建 的 开源 、 分 布 式 、RESTful 搜索 引擎 。 设 计 场 景 主要 是 在 云 计 算 的 环 
境 中 ， 能 够 实现 稳定 可 靠 的 实时 搜索 ， 并 具有 良好 的 水 平 扩展 性 。 


Thrift 


图 9-2 中 的 各 个 模块 之 间 广 泛 地 存在 数据 交换 ， 不 过 由 于 各 模块 需 
求 的 不 同 ， 有 了 时 我 们 会 选用 不 同 的 开发 语言 来 分 别 实现 它们 ; 或 者 由 
于 开源 工具 的 不 同 ， 最 方便 的 使 用 语言 也 不 同 。 为 了 方便 在 不 同 语言 
的 模块 之 间 实 现 调用 接口 ， 避 免 应 用 开发 者 过 多 地 将 精力 放 在 底层 通 
信 上 ， 开 产 社 区 涌现 了 才干 个 路 语言 通信 接口 工具 。 我 们 以 Thrift 为 例 
来 介绍 。 

Thrift (http://thrift.apache.org ) 被 描述 为 “scalable cross-language 
services implementa-tion”( 可 扩展 的 跨 语言 服务 实现 ) %m， 它 有 自己 的 
跨 机 妖 的 通信 和 框架， 还 提供 了 一 套 代 码 生 成 工具 ， 可 以 生成 多 种 编程 


语言 的 通信 过 程 代码 。Thrift 有 一 种 描述 对 象 和 服务 的 界面 定义 语言 
(Interface Definition Language, IDL) ， 它 提供 了 一 种 网 络 协 议 ， 使 用 
这 些 对 象 和 服务 定义 的 进程 之 间 基 于 这 种 网 络 协议 彼此 进行 通信 。 
Thrift 根 据 IDL 的 描述 可 以 生成 绝 大 多 数 流行 语言 (C++ ` Java ` 
Python ~ PHP ` Ruby ^ Erlang ^ Perl ^ Haskell ^ C# ` Cocoa ` JavaScript 
等 ) WREE ° AI, ARS uim SE LS RASA ie, xm 
复杂 的 计算 广告 技术 平台 不 同系 统 之 间 的 通信 提供 了 很 大 的 便利 。 
此 外 ，Thrift 还 提供 了 实践 中 非常 有 用 的 版 本 兼容 性 功能 ， 即 服务 
吉 端 能 在 不 影响 现 有 的 客户 端的 情况 下 增加 数据 结构 、 字 段 、 服 务 方 
法 务 数 参数 。 这 一 特性 使 得 大 型 工程 中 模块 间 的 依赖 性 大 为 减弱 ， 
也 能 够 显著 降低 开发 成 本 。 因 此 ， 我 们 建议 在 计算 广告 的 系统 模块 之 
间 尽 可 能 采用 Thrift 文 类 工具 封装 接口 。 
有 关 Thrift 的 设计 原理 和 更 多 细 市 可 以 参考 [67]。 其 他 的 相关 开源 
工具 还 有 ProtoBuf ( http://code.google.com/p/protobuf ) ^ Avro 


等 


(http://avro.apache.org) 等 。 


9.5.5 公路 Flume 


计算 广告 这 样 的 个 性 化 系统 由 于 并 发 很 高 ， 产 生 的 日 志 量 也 非常 
大 。 在 这 类 系统 中 ， 应 该 避免 对 数据 做 单 点 的 集中 式 读 写 ， 而 是 尽量 
应 该 让 数据 的 处 理 形 成 环形 的 流动 ， 即 由 数据 高 速 公 路 将 线 上 日 志 准 
实时 地 送 至 离线 或 在 线 处 理 平台 ， 再 将 处 理 结果 存放 在 缓存 中 供 线 上 
决策 使 用 。 在 这 样 的 架构 中 ， 一 个 分 布 式 、 高 吞吐 率 的 数据 传送 通道 
至 关 重 要 。 

在 这 类 数据 传输 工具 中 ，Flume (http://flume.apache.org) 是 比较 常 
用 的 开源 解决 方案 之 一 。Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 
可 靠 的 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 ， 它 文 持 在 日 志 
系统 中 定制 各 类 数据 发 送 方 ， 用 于 分 布 式 地 收集 和 汇总 日 志 数 据 。 
Flume 提供 了 从 控制 台 (console) 、RPC (thrift-RPC) 、 文 本 

(text) ^ Tail 操作 (UNIX tail) 、 日 志 系 统 (syslog， 支 持 TCP 和 

UDP 两 种 模式 ) 以 及 命令 执行 (exec) 等 数据 源 上 收集 数据 的 能 
同时 ，Elume 还 提供 了 对 数据 进行 简单 处 理 并 输出 到 各 种 数据 接收 方 的 
能 力 。 如 采 广 告 投放 机 采用 syslog 方 式 记录 投放 、 扣 击 等 日 志 ， 可 以 很 
方便 地 通过 配置 Flume 将 日 志 传 送 到 Hadoop 上 。 

其 他 BJ E X F WR IL A 还 有 Sibe 


(https://github.com/facebook/scribe) 等 。 


9.5.6 分 布 式 数据 处 理 平 台 Hadoop 


图 9-2 中 的 离线 数据 处 理 部 分 需要 一 个 能 够 存储 和 加 工 海量 数据 的 
基础 设施 ， 实 际 上 这 也 是 大 多 数 大 数据 系统 都 需要 的 平台 。 在 开源 的 
这 类 平台 工具 中 ，Hadoop (http://hadoop.apache.org) 几乎 是 工业 界 的 
标准 选择 。Hadoop 的 核心 架构 主要 包括 HDFS (Hadoop Dis-tributed 


File System，Hadoop 分 布 式 文件 系统 ) ` Hadoop MapReduce 和 HBase， 
其 中 HDFS 是 GFS (Google File System) “AJF IRIM, MapReduce Æ 
Google MapReducem 的 开源 实现 ， 而 HBase 则 是 Google BigTablem 的 开 
源 实现 。 

HDFS 是 一 种 易于 横向 扩展 的 分 布 式 文件 系统 ， 提 供 大 规模 数据 文 
件 存 储 服 务 ， 文 持 PB 级 数据 规模 。 它 可 以 运行 在 上 万 台 的 通用 商业 服 
务 器 集群 上 ， 提 供 副 本 容错 机 制 ， 为 海量 用 户 提供 性 能 优秀 的 存 取 服 
。 计算 广告 系统 里 的 海量 日 志文 件 等 瓯 是 通过 Flume 之 类 的 数据 高 速 
公路 传送 ， 最 终 存储 在 HDFS 上 ， 为 各 种 离线 计算 任务 提供 服务 。 

Hadoop MapReduce 是 一 种 分 布 式 计算 框架 ， 顾名思义 ， 它 由 两 个 
部 分 组 成 : Map 和 Reduce。Map 是 将 一 个 作业 分 解 成 多 个 任务 ， 而 
Reduce 是 将 分 解 后 多 任务 处 理 的 结果 汇总 起 来 。 在 程序 设计 中 ， 一 项 
工作 往往 可 以 被 拆 分 成 为 多 个 任务 ， 任 务 之 间 的 关系 可 以 分 为 两 种 : 
一 种 是 不 相关 的 任务 ， 可 以 并 行 执行 ， 男 一 种 是 任务 之 间 有 相互 依 
赖 ， 先 后 顺序 不 能 够 颠倒 ， 这 种 任务 是 无 法 并 行 处 理 的 。MapReduce 


R 


适用 于 第 一 种 类 型 ， 庞 大 的 集群 可 以 看 作 是 便 件 资源 池 ， 将 任务 并 行 
拆 分 ， 然 后 交 由 每 一 个 空 内 硬件 资源 去 处 理 ， 能 够 极 大 地 提高 计算 效 
率 ， 同 时 这 种 资源 无 关 性 对 于 计算 集群 的 横 回 扩展 提供 了 最 好 的 设计 
保证 。 为 了 降低 MapReduce 编 程 的 复杂 性 ， 人 们 还 开发 了 Hive、Pige * 
等 开源 工具 产品 ， 使 用 类 似 于 SQL 的 脚本 语言 发 起 各 种 数据 计算 任 
务 。 

在 广告 系统 中 ， jaa 
可 以 说 是 计算 广告 系统 进行 大 规模 数据 处 理 不 可 或 缺 的 基础 平台 。 
论 是 受众 定向 、 点 击 率 预 测 还 是 基础 的 报表 生成 ， 都 需要 在 Hadoop 上 
进行 大 规模 的 数据 处 理 。 因 次 ， 关 于 Hadoop 的 原理 和 应 用 必须 深入 掌 
握 。 有 关 Hadoop 更 详细 的 介绍 和 学 习 资 料 可 以 参考 参考 文献 [77] 。 


9.5.7 特征 在 线 缓存 Redis 


< redis 


无 论 是 离线 计算 的 受众 定 同 标签 还 是 点 击 率 模型 参数 或 特征 ， 由 
于 规模 比较 大 ， 一 般 来 说 都 无 法 直接 存放 在 在 线 广告 投放 机 的 内 存 
中 ， 而 是 要 用 独立 的 缓存 服务 。 在 线 用 到 的 特征 缓存 有 两 个 显著 的 特 
点 ， 首 先是 往往 只 需要 存储 简单 的 键 / 值 对 ， 其 次 是 大 多 数 情形 下 需要 
支持 高 并 发 的 随机 读 和 不 太 频 繁 的 批量 写 。 在 这 样 的 需求 下 ，Redis 
(http://www.redis.io) 是 比较 合适 的 开源 工具 之 一 。 


Redis 也 是 一 种 NoSQL 数 据 库 ， 它 主要 提供 的 是 高 性 能 的 键 / 值 存 储 
(key/value store) ， 采 用 的 是 内 存 数据 集 的 方式 。 Redis 的 键 值 可 以 包 

括 字符 串 、 哈 希 、 列 表 、 集 合 和 有 序 集合 等 数据 类 型 ， 因 此 也 被 称 作 
是 一 款 数 据 结构 服务 器 (data structure server) 。Redis 会 周期 性 地 把 更 
新 的 数据 写 入 磁盘 或 者 把 修改 操作 写 入 追加 的 记录 文件 ， 并 且 在 此 基 
础 上 实现 了 主 从 同步 ， 具 有 非常 快速 的 非 阻 窗 首 次 同步 、 网 络 断 开 目 
动 重 连 等 功能 。 同 时 ，Redis 还 具有 其 他 一 些 特性 ， 其 中 包括 人 简单 的 
check-and-set 机 制 、pub/sub 和 配置 设置 等 ， 使 得 它 能 够 表现 得 更 像 高 速 
缓存 (cache) ° Redis 还 提供 了 丰富 的 客户 端 ， 文 持 现 阶段 流行 的 大 多 
数 编程 语言 ， 使 用 起 来 比较 方便 。 

在 广告 系统 中 使 用 Redis， 需 要 注意 的 一 点 是 ， 当 以 批 处 理 方式 更 
新 其 中 内 容 时 ， 应 避免 对 线 上 高 并 发 的 读 请 求 产 生 影 响 ， 因 此 有 时 需 
要 采用 多 次 写 入 的 方案 。 

有 关 Redis 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [51] 。 


9.5.8 流 计算 平台 Storm 


Q Apache Storm 


Hadoop 能 够 处 理 的 数据 规模 相当 可 观 ， 但 是 处 理 的 啊 应 速度 却 很 
难保 证 。 因 此 ， 在 图 9-2 的 在 线 处 理 部 分 ， 需 要 一 种 新 型 的 、 能 够 以 数 
据 流 的 方式 对 线 上 日 志 准 实时 处 理 的 平台 作为 基础 设施 ， 在 这 类 平台 


的 开源 解决 方案 中 ， 工 业界 比较 常用 的 是 Storm 
(http://storm.apache.org) ° 

广告 中 需要 用 到 流 计算 的 问题 包括 在 线 反 作 兹 、 计 费 、 实 时 受众 
定向 和 实时 点 击 反馈 等 《参见 13.3 节 ) 。 我 们 希望 的 解决 方案 是 能 够 自 
动 地 处 理 各 流 计算 模块 则 的 通信 和 数据 依赖 ， 并 能 够 在 数据 规模 增 大 
时 自动 进行 分 布 式 的 负载 分 配 ，Storm 这 样 的 流 计算 平台 就 可 以 为 我 们 
实现 上 述 的 需求 。 流 计算 的 任务 逻辑 与 MapReduce 过 程 有 些 类 似 ， 熟 
悉 Hadoop 编 程 的 读者 也 可 以 比较 容易 地 在 Storm 上 开发 应 用 。 不 过 需 
要 注意 的 是 ， 流 计算 的 任务 调度 原则 和 HDEFS 上 的 MapReduce 不 同 ， 流 
计算 是 调度 数据 ， 让 数据 在 不 同 的 计算 节点 间 流 动 起 来 ， 而 
MapReduce 是 尽 可 能 调度 计算 以 减少 数据 IO。 因此 ， 流 计算 从 本 质 上 
讲 并 不 是 一 个 可 以 真正 处 理 海量 数据 的 框架 ， 它 的 特长 仍然 在 数据 处 
理 的 响应 速度 上 。 

Storm 保证 每 个 消息 都 会 得 到 处 理 ， 而 且 处 理 速 度 很 快 ， 每 秒 可 以 
处 理 数 以 百 万 计 的 消息 ， 并 且 可 以 使 用 任意 编程 语言 来 做 开发 。 田 
Sb, Storm 还 可 以 直接 部 署 在 在 新 一 代 的 Hadoop 计 算 调 度 引 苟 YARN 
上 ， 这 样 可 以 非常 方便 地 共享 一 个 Hadoop 集 群 的 存储 功能 和 计算 资 


其 他 的 相关 开源 工具 还 有 S4 (http://incubator.apache.org/s4) 以 及 
F uE 要 介绍 的 Spark 的 Streaming 7; X 
(http://Spark.apache.org/streaming) 等 ， 但 它们 的 系统 特点 和 使 用 场景 


还 是 有 一 定 的 差别 ， 读 者 可 以 自行 了 解 。 有 关 Storm 更 详细 的 介绍 和 
使 用 方法 可 以 参考 参考 文献 [2，80] 。 


9.5.9 AE Spark 


Soak 


Spark (http://spark.apache.org) 在 最 近 几 年 荔 露 头角 ， 作 为 一 种 新 
兴 的 大 数据 计算 平台 受到 越 来 越 多 的 关注， 一 些 计算 广 告 系 统 也 开始 
广泛 使 用 Spark 平台 解决 一 些 需 要 迭代 计算 的 问题 。 用 Hadoop 进行 大 
规模 数据 处 理 在 Map 和 Reduce 两 个 阶段 之 间 需 要 用 硬盘 进行 数据 交 
换 ， 因 此 在 需要 面 对 多 次 友 代 才能 完成 的 任务 时 效率 相当 低 。 由 于 这 
样 的 迭代 计算 任务 在 计算 广告 中 很 解 见 《参见 第 10 章 ) ， 如 文本 主题 
模型 、 点 击 率 预 佑 等 ， 我 们 非常 需要 一 种 更 适合 于 迭代 计算 的 框架 。 

作为 一 种 新 型 分 布 式 计算 框架 ，Spark 的 最 大 特点 在 于 内 存 计 算 。 
Spark 的 计算 模型 可 以 更 加 精简 地 摘 述 等 价 的 MapReduce 模 型 ， 另 外 由 
于 Spark 的 数据 共享 基于 内 存 ， 因 而 相对 于 基于 硬盘 的 Hadoop 
MapReduce 批 处 理 计算 ， 其 性 能 有 数量 级 的 提升 。 此 外 ，Spark 可 以 在 
一 套 软件 系统 上 文 持 多 种 计算 任务 ， 除 了 传统 的 Hadoop MapReduce 所 
对 应 的 批 处 理 计算 之 外 ， 还 文 持 各 种 机 需 学 习 算法 为 代表 的 迭代 型 计 
算 、 流 式 实时 计算 、 社 交 网 络 中 常用 的 图 计算 、SQL 关 系 查 询 、 交 互 


式 即 席 查询 等 。 这 样 ， 使 用 Spark 就 可 以 避免 同时 维护 多 套 针 对 不 同 计 
算 需 求 的 系统 ， 还 可 以 避免 不 同系 统 之 间 的 数据 转 储 ， 大 大 减低 了 开 
发 和 运 维 成 本 。 

虽然 Spark 可 以 在 很 多 中 等 规模 的 迭代 计算 问题 上 表现 的 性 能 非常 
优异 ， 但 是 由 于 大 量 数据 的 基础 存储 仍然 要 依赖 于 Hadoop， 在 两 个 集 
群 之 间 调 度数 据 成 为 高 效 处 理 数据 的 障碍 。 不 过 ， 与 Storm 一 样 ， 现 
在 Spark 也 已 经 可 以 直接 部 署 在 YARN 之 上 ， 以 “Spark on YARN” 的 方 
式 与 Hadoop 方 便 地 共享 集群 的 存储 功能 和 计算 资源 。 

有 关 Spark 更 详细 的 介绍 和 使 用 方法 可 以 参考 参考 文献 [21，45] 。 


9.6 延伸 思考 
1. 对 于 你 熟悉 的 某 种 广告 产品 ， 如 何 估算 其 服务 成 本 ? 如 何 根据 广 
告 系统 的 特点 优化 这 一 成 本 ? 
2. 对 一 个 提供 受众 定向 的 效果 类 广告 产品 ， 如 何 估算 其 数据 处 理 的 
规模 ? 


本 书 由 l'ePUBw.COM | 整理 ，ePUBw.COM fe 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 10 章 基础 知识 准备 


计算 广告 并 不 是 一 门 独立 的 学 科 ， 它 更 应 该 被 看 成 是 一 个 工业 界 
的 具体 问题 。 在 解决 此 问题 的 过 程 中 ， 需 要 大 量 用 到 相关 学 科 的 一 些 
基本 技术 和 算法 。 本 书 的 目的 并 不 是 专门 介绍 这 些 技术 ， 但 是 在 后 续 
的 讨论 中 不 可 避免 需要 用 到 一 些 背景 知识 。 因 此 ， 我 们 在 进入 具体 的 
广告 技术 和 算法 之 前 ， 先 概要 性 地 介绍 几 个 相关 领域 的 技术 和 算法 。 
这 既是 为 后 面 的 算法 章节 铺 执 ， 也 是 为 了 帮助 读者 将 来 在 工作 中 遇 到 
相关 问题 时 可 以 有 目的 地 找到 相关 资料 。 

我 们 将 重点 关注 三 个 相关 领域 的 背景 知识 : 信息 检索 (Information 
Retrieval, IR) 、 最 优化 (Optimization) 和 机 器 学 习 (Machine 
Learning, ML) 。 信 息 检索 是 所 有 大 规模 数据 处 理 系 统 ， 特 别 是 搜索 
和 个 性 化 系统 的 通用 技术 ， 而 为 了 了 解 广告 检索 、 流 量 预 测 等 相关 问 
题 中 的 一 些 改进 算法 ， 必 须 对 其 中 的 倒 排 索引 等 方法 有 基本 认识 。 对 
于 所 有 与 数据 、 算 法 打交道 的 工程 师 来 说 ， 最 优化 理论 的 重要 性 可 以 
排 在 首位 ， 因 为 它 是 连接 问题 、 模 型 与 最 终 解 决 方案 的 关键 桥梁 。 在 
面 对 不 同类 型 的 最 优化 问题 时 的 一 般 思 路 和 基本 方法 ， 将 是 我 们 介绍 
的 重点 。 而 机 器 学 习 算 法 对 于 计算 广告 的 作用 不 言 而 喻 ， 广告 中 的 许 
多 问题 ， 如 文本 主题 模型 、 受 众 定 向 、 点 击 率 预测 等 ， 都 需要 掌握 一 
些 机 器 学 习 基础 方法 ， 并 对 机 器 学 习 的 方法 论 有 清晰 认识 。 我 们 将 主 


要 介绍 统计 机 妖 学 习 的 框架 ， 并 关注 其 在 分 布 式 计算 环境 下 的 实现 思 


从 本 章 开始 ， 我 们 会 用 C++ 或 Matlab 语 言 给 出 一 些 关 键 性 算法 或 过 
程 的 示例 性 代码 。 我 们 会 尽量 将 这 些 代 码 的 具体 逻辑 实现 得 清晰 完 
整 ， 不 过 由 于 对 整个 系统 的 依赖 性 ， 大 多 数 情况 下 并 不 能 将 这 个 代码 
视 为 可 实际 执行 的 代码 。 但 是 ， 在 参考 这 些 示例 代码 的 基础 上 ， 相 信 
读 着 可 以 比较 方便 地 在 实际 系统 中 实现 相应 的 功能 。 


10.1 信息 检索 


从 第 8 章 介绍 的 广告 系统 架构 可 以 看 出 ， 为 了 达到 面向 大 量 中 小 
广告 主 时 民 好 的 扩展 性 ， 计 算 广告 采 用 的 是 类 搜索 的 技术 框架， 即 检 
索 加 排序 两 段 的 决策 过 程 。 因 此 ， 我 们 有 必要 对 搜索 引擎 信息 检索 的 
基本 方法 有 所 了 解 ， 这 里 主要 介绍 倒 排 索引 和 问 量 空间 模型 。 


10.1.1 倒 排 索引 


倒 排 索引 (inverted index) 包 是 现代 搜索 引擎 的 核心 技术 之 一 ， 其 
核心 目的 是 将 从 大 量 文档 中 查找 包 侣 某 些 词 的 文档 集合 这 一 任务 用 O 
(1) BLO (logn) 的 时 间 复 杂 度 a 完 成， 其 中 mn 为 索引 中 的 文档 数目 。 
也 就 是 说 ， 利 用 倒 排 索引 技术 ， 可 以 实现 与 文档 集 大 小 基本 无 天 的 检 
索 复 杂 度 ， 这 一 点 对 于 海量 内 容 的 检索 来 说 至 关 重 要 。 正 是 有 了 倒 排 
索引 技术 的 文 返 ， 互 联网 才 在 实时 检索 大 规模 数据 方面 取得 了 质 的 飞 


跃 。 我 们 用 例子 来 说 明 倒 排 索 引 的 基本 概念 ， 假 设 我 们 有 如 下 的 几 篇 
文档 : 

=“ 合 歌 地 图 之 父 跳槽 Facebook” 

=“ 合 歌 地 图 之 父 加 盟 Facebook” 

D,=“ 合 歌 地 图 创始 人 拉 斯 离开 合 歌 加 盟 Facebook” 

D =“ 谷 歌 地 图 创始 人 跳槽 Facebook 与 Wave 项 目 取消 有 关 ” 

ee 人 人 拉 斯 加 盟 社 交 网 站 Facebook” 

对 每 篇 文档 都 进行 分 词 以 后 ， 可 知 这 些 文档 中 包含 的 关键 词 
(term) A: { 谷 歌 ， 地 图 ， 之 父 ， 跳 槽 ，Facebook， 加 盟 ， 创 始 人 ， 
DUET, BT, Sj, Wave, WA, BOB. AX, EX, Wuih. Hoc. X 
掉 “ 与 ”这样 的 没有 实际 表意 作用 的 停止 词 (stop word) ， 我 们 对 每 一 个 
词 建立 一 个 链表 ， 表 中 的 每 个 元 素 都 是 包含 该 词 的 某 篇 文档 的 标识 。 
于 是 ， 与 上 面 的 文档 集 对 应 的 倒 排 索引 ， 也 就 是 所 有 关键 词 的 倒 排 链 

集合 可 以 表示 如 下 : 
谷歌 -{D,，D,，D,，D,，D.}, 地 图 ->{D,, D, D, D, DJ, 之 


da 


S 


4 5(D,, D, D, D}, 

Bk -{D,, DJ, Facebook>{D,, D,, D,, D,, DJ. 创始 人 
^ (DJ, 

加 盟 -~{D,，D,，D}， 拉 斯 ~{D,，D}， 离 开 -{D}, 
Wave > (Dj, 


BUA -{D}, MA -{D}, AR-{D}, #R-{D}, Mow 
— (DJ o 

为 了 后 文 一 些 实例 的 方便 ， 我 们 用 下 面 一 段 代码 中 的 类 结构 来 描 
述 一 个 倒 排 索引 。 这 个 类 结构 派生 于 hash map， 其 中 的 键 为 关键 词 ， 即 
term， 典 型 情况 下 ， 该 键 是 string 类 型 ， 但 是 在 后 文 介绍 的 布尔 表达 式 
检索 等 场景 中 ， 其 键 的 类 型 可 能 会 发 生变 化 。 因 此 ， 为 了 逻辑 统一 ， 
我 们 引入 了 模板 参数 来 泛 化 此 处 的 数据 类 型 。 而 hash map 的 值 就 是 倒 
排 链 ， 是 一 个 由 索引 条 目 组 成 的 链表 。 每 个 索引 条 目 有 两 个 域 ， 第 一 
个 是 该 条 目 对 应 的 文档 的 ID， 第 二 个 是 一 个 辅助 变量 ， 比 如 可 以 用 于 
表示 目前 关键 词 在 此 文档 的 TD-IDF (参见 10.1.2 节 ) ， 在 后 面 提 到 的 其 
他 索引 类 型 中 也 会 有 独特 的 应 用 。 当 然 ， 这 种 结构 只 是 一 个 概念 上 的 
表达 ， 实 际 的 倒 排 索引 还 要 存储 很 多 其 他 信息 ， 为 了 便于 突出 主要 概 
念 ， 在 本 书 中 采用 这 样 简单 的 概念 性 描述 。 

倒 排 索引 最 基本 的 操作 有 两 项 : 一 是 向 索引 中 加 入 一 个 新 文档 ， 
二 是 给 定 一 个 由 多 个 关键 词组 成 的 查询 时 ， 返 回 对 应 的 文档 集合 。 我 
们 也 在 下 面 的 代码 中 对 这 两 项 基本 功能 的 实现 做 了 描述 。 需 要 注意 的 
是 : 在 倒 排 索引 中 ， 由 于 文档 ID 是 在 加 入 倒 排 索引 时 被 在 线 分 配 的 ， 
因此 每 个 倒 排 链 都 可 以 确保 是 有 序 的 ， 这 会 在 后 面 的 应 用 中 得 到 具体 
利用 。 


template <class TKey> 
class InvIndex : public map<TKey, list<int>> { 
public: 

vector<vector<Tkey> > docs; // 文档 正 排 表 


public: 
Jf 向 索引 中 加 入 一 个 文档 
void add(vector<TKey> & doc) { 
// 在 正 排 表 里 记录 该 文档 
docs .push_back(doc); 


int curDocID = docs.size() - 1; 


// i& fi document €. Ft 47 Af tera 

for (int w = 0; w < doc.size(); w **) 1 
map<TKey, list<int> >::iterator it; 
it = this -> find(doc[w]); 


// 如 果 该 term 的 例 排 链 不 存在 ， 产 建 倒 排 链 
if (it == this -> end()) { 
list<int> newList; 
(*this)[doc[w]] = newList; 
it = this -> find(doc[w]); 


/A 在 倒 排 链 末 尾 插 入 新 的 文档 
it -> second.push_back(curDocID), 


Af 在 索引 中 进行 一 次 查询 
void retrieve(vector<TKey> & query, set<int> & docTIDa) 1 


int termNum = query.size(); 


// OHA termi Al eat 
docIDa.clear(); 
for (int t = 0; t < termNum; t ++) ( 
map<TKey, list<int> >::iterator it; 
// terni] tHE RAEM akit 
if ((it = this -> find(query[t])) != this -> end()) 


docIDs.insert (it->second.begin(), it->second.end()); 


需要 说 明 ， 这 段 代 码 仅仅 是 帮助 大 家 了 解 问 题 的 示例 性 代码 ， 而 
实际 的 倒 排 索引 远 比 此 复杂 。 其 工程 难点 有 很 多 ， 比 如 如 何 设计 精简 
的 数据 结构 以 节省 对 内 存 的 使 用 以 及 如 何 比较 实时 地 将 新 的 文档 加 入 
倒 排 索引 等 。 这 些 问题 由 于 是 信息 检索 领域 专门 的 研究 课题 ， 并 非 广 
告 的 特殊 需求 ， 我 们 不 再 深入 介绍 。 需 要 自行 实现 广告 检索 部 分 的 读 
着 可 以 参考 这 方面 专门 的 技术 文献 或 者 深入 学 习 9.5.3 厄 中 介绍 的 开源 
的 倒 排 索引 工具 Lucene 。 


如 果 说 倒 排 索引 技术 是 大 规模 信息 检索 的 基石 ， 那 么 向 量 空间 模 
型 (Vector Space Model, VSM) m 则 是 信息 检索 中 最 基础 且 最 重要 的 
文档 相似 度 度 量 方法 之 一 。VSM 的 核心 有 两 点 : 文档 的 表示 方法 和 相 
似 度 计 算 方 法 。 

首先 ， 我 们 对 每 个 文档 采用 词 袋 (Bag of Words, Bow) 假设 ， 即 
用 各 个 关键 词 在 文档 中 的 强度 组 成 的 矢量 来 表示 该 文档 : 
d =(zlzo , 2M). (10.1) 

其 中 x 一 般 采 用 词 表 中 第 mm 个 词 在 d 中 对 应 的 TF-IDF (Term 
Frequency-Inverse DocumentFrequency， 词 频 -倒数 文档 频率 ) 值 ， 这 是 
一 种 信息 检索 中 最 常见 的 词 强度 度量 ， 可 以 分 解 为 两 个 量 的 乘积 : 一 
个 量 是 词 频 (Term Frequency, TF) ， 即 某 文 档 中 该 词 出 现 的 次 数 ， 另 
一 个 量 是 倒数 文档 频率 (Inverse Document Frequency, IDF) ， 即 该 词 
在 所 有 文档 中 出 现 的 频繁 程度 的 倒数 。IDEF 的 引入 是 考虑 到 那些 广泛 出 


现在 各 个 文档 中 的 常用 词 对 主题 的 鉴别 力 并 不 强 ， 因 而 需要 降低 其 权 
重 。IDEF 的 计算 方法 有 在 干 种 ， 最 利用 的 形式 为 : 
IDF(m) = log( N/DF(m)) (10.2) 

其 中 DF (m) 为 词 m 在 其 中 出 现 的 文档 的 总 数目 ，N 为 总 文档 数 
目 。 在 广告 应 用 中 如 何 计算 IDF 值 ， 在 某 些 情形 下 需要 不 同 的 处 理 。 例 
如 ， 在 处 理 对 广告 主 有 价值 的 竞价 标的 词 时 ， 可 以 采用 所 有 广告 摘 
述 ， 而 不 是 互联 网 上 的 网 页 作为 文档 集合 。 相 应 地 ， 在 根据 天 键 词 进 
行 广告 检索 时 ， 也 应 该 使 用 这 种 方法 得 到 的 TF-IDF。 

这 样 的 BoW 文 档 表 示 方 法 是 对 目 然 语言 最 简单 粗略 的 一 种 近似 表 
示 。 它 完全 忽略 了 词 的 前 后 接续 关系 以 及 更 高 阶 的 语法 因素 的 影响 ， 
因而 并 不 太 可 能 具有 精细 的 文档 描述 能 力 。 不 过 ， 这 种 方法 在 信息 检 
索 中 的 作用 无 疑 是 巨大 的 ， 因 为 它 通 过 极为 简单 经 济 的 操作 对 文档 进 
行 了 简化 ， 同 时 又 比较 好 地 保留 了 文档 的 概貌 ， 这 对 于 海量 文档 数据 
的 处 理 和 索引 非常 有 利 。 时 至 今日 ， 虽 然 学 者 们 在 自然 语言 处 理 方面 
取得 了 许多 进展 ， 但 这 种 人 简单 的 方法 仍然 是 工程 实践 中 信息 检索 和 文 
档 主 题 挖 掘 的 最 常用 文档 表示 。 如 采 我 们 考虑 更 精细 的 文档 描述 ， 可 
以 进一步 加 入 文档 的 n-gram 信息 ， 但 是 也 会 市 来 数据 的 爆炸 式 增长 和 
模型 估计 稳健 性 上 极 大 的 挑战 。 

采用 BoW 的 文档 表示 方法 ， 在 计算 两 个 文档 的 相似 度 时 ， 一 般 是 
用 其 对 应 矢量 的 余弦 距离 : 


| | did, | 
cos(d;, d2) = Tdi Ml (10.3) 

余弦 距离 的 最 显著 好 处 是 当 两 个 矢量 在 尺度 上 没有 归 一 化 时 ， 仍 
然 可 以 得 到 比较 稳健 的 结果 。 比 如 有 两 篇 一 样 的 文档 ， 将 其 中 的 一 篇 
内 容重 复 一 遍 ， 再 去 计算 余弦 距离 仍然 是 ， 而 如 果 采 用 其 他 方式 ， 如 
欧 氏 距离 ， 结 果 就 不 再 是 0 了 “。 再 比如 两 个 人 对 各 种 电影 打分 ， 甲 倾向 
于 给 较 高 的 分 数 ， 乙 倾向 于 给 较 低 的 分 数 ， 那 么 在 一 组 3 部 电影 上 ， 甲 
给 出 的 分 数 {3.6，3.6，4.8} 和 乙 给 出 的 分 数 {3.0，3.0，4.0} 实际 上 一 
致 程度 相当 高 ， 这 也 可 以 被 余弦 距离 比较 公允 地 度量 出 来 。 

了 解 了 上 面 的 这 些 内 容 ， 读 者 可 以 建立 对 海量 文档 进行 检索 的 基 
本 方案 。 在 离线 索引 阶段 ， 需 要 对 文档 集合 分 词 ， 并 按照 BoW 模 型 表 
示 得 到 每 个 文档 的 TF-IDF 矢 量 ， 对 分 词 后 的 文档 集合 建立 倒 排 索引 。 
当 在 线 的 查询 到 来 时 ， 也 进行 分 词 ， 从 倒 排 索引 中 查 出 所 有 符合 要 求 
的 文档 候选 ， 并 对 其 中 的 每 个 候选 评价 其 与 查询 的 余弦 距离 ， 按 距离 
由 小 到 大 进行 排序 。 这 样 的 一 个 基本 框架 也 适用 于 广告 这 一 大 规 摸 数 
据 挖掘 问题 ， 也 是 图 9-2 的 基本 原理 。 

虽然 VSM 不 是 实际 系统 中 对 检索 候选 进行 排序 的 常见 方法 ， 不 过 
要 提醒 大 家 注意 ， 这 是 一 种 简单 、 无 需 训 练 的 基线 方法 。 因 此 ， 在 探 
索 各 种 数据 驱动 的 精细 模型 时 ， 要 先 将 它们 与 YSM 方 法 做 比较 。 


10.2 此 方法 


为 了 探索 比 上 面 的 癌 量 空间 模型 更 加 有 效 的 计算 广告 方案 ， 必 然 
会 页 到 大 量 的 与 数据 挖掘 和 机 絮 学 习 相关 的 算法 问题 。 在 这 些 与 数据 
相关 的 问题 中 ， 最 重要 的 基础 技能 钙 最 优化 理论 和 方法 。 最 优化 讨论 
的 是 在 给 定 一 个 数学 上 明确 表达 的 优化 目标 后 ， 如 何 用 系统 性 的 方法 
和 思路 找到 该 目标 的 最 优 解 。 这 方面 的 书籍 和 文章 很 多 ， 我 们 从 工程 
的 角度 出 发 ， 简 要 整理 一 下 在 面临 各 类 目标 函数 时 的 一 般 性 思路 ， 并 
希望 大 家 能 够 认 清 “ 模 型 ?和 “优化 "这 两 个 概念 的 联系 与 区 别 。 

最 优化 问题 讨论 的 是 ， 给 定 某 个 确定 的 目标 函数 以 及 该 函数 自 变 
量 的 一 些 约束 条 件 ， 求 解 该 男 数 的 最 大 或 最 小 值 的 问题 。 这 样 的 问题 
可 以 表示 为 下 面 的 一 般 形 式 : 

min f(a) 


(10.4) 

st. g(zr) 0, h(a) =0 
这 里 f (x) 是 一 个 关于 自 变 量 x 的 目标 函数 ， 而 g (x) Mh (x) 

为 x 的 矢量 函数 ， 对 应 着 一 组 不 等 式 和 等 式 约束 条 件 ， 其 中 g (x) <0 
表示 矢量 g (x) 的 每 一 个 元 素 都 小 于 或 等 于 0。 根 据 约束 条 件 以 及 目标 
函数 的 性 质 不 同 ， 最 优化 问题 求解 的 思路 也 有 很 大 的 不 同 。 其 中 无 约 
束 优化 问题 的 方法 是 基础 ， 而 带 约束 优化 问题 则 在 一 定 条 件 下 可 以 转 
化 为 无 约束 优化 问题 来 求解 ， 这 涉及 下 面 将 要 谈 到 的 拉 格 明日 法 种 
优化 问题 。 


10.2.1 fi TAL 


我 们 先 来 看 看 解 带 约束 优化 问题 的 一 般 框 架 思 路 。 在 实际 工程 

中 ， 带 约束 优化 非常 常见 ， 如 后 面 将 提 到 的 广告 合约 量 约束 下 的 优化 

问题 。 有 关 带 约束 优化 最 重要 的 方法 就 是 拉 格 朗 晶 法。 具体 来 说 ， 对 

公式 10.4 那样 的 带 约束 优化 问题 ， 可 以 引入 一 个 拉 格 朗 日 对 偶 函 数 
(Lagrange dual function) 或 简称 对 偶 函 数 : 


L(A, v) = int |f(z) + A g(x) +v h(a) (10.5) 
xx HL 5 ALI] ACER OUR VOS br B] BL RF, OREN CE PK 
T Bu ARE EB, ON NIHU, CR T E BU due BH HONTE f In] o 
(Lagrange dual problem) : 
maxL(A,v) st. A0 (10.6) 
可 以 证 明 ， 对 偶 问 题 的 最 优 值 是 原 问题 最 优 值 的 下 界 ， 而 当 这 两 
者 完全 一 致 时 ， 称 为 强 对 偶 (strong duality) 得 到 满足 。 可 以 证 明 ， 当 
原 问题 是 串 优 化 问题 ， 即 目标 函数 为 凸 函 数 ， 并 且 由 各 项 约束 得 到 的 
可 行 解 域 (feasible region) 也 是 凸 的 话 ， 强 对 偶 总 是 被 满足 的 。 但 需 
要 特别 说 明 ， 并 不 是 只 有 串 优 化 问题 才 是 强 对 偶 的 g， 如 后 面 将 要 提 到 
的 Trust-Region 法 中 的 子 问题 ， 虽 然 其 目标 函数 不 能 保证 为 加 ， 但 是 强 
对 偶 也 是 可 以 保证 的 。 由 于 吓 优 化 的 这 一 性 质 ， 它 在 带 约 束 优化 中 具 
有 非常 重要 的 核心 地 位 一 一 因为 我 们 可 以 通过 转 而 优化 对 偶 问 题 求 得 
同样 的 解 ， 这 为 优化 过 程 提 供 了 极 大 的 方便 性 。 另 外 有 趣 的 是 ， 不 论 
原 问题 是 否 为 凸 优化 ， 这 一 对 偶 问 题 都 是 一 个 吓 优 化 问题 ， 因 此 往往 
在 求解 上 有 一 定 的 便利 性 。 


进一步 ， 当 原 目 标 函 数 和 所 有 的 约束 函数 都 可 导 时 ， 强 对 偶 问 题 
最 重要 的 性 质 是 使 得 KKT (Karush-Kuhn-Tucker) 条 件 成 立 的 点 可 以 
同时 满足 原 问 题 和 对 偶 问 题 最 优化 的 要 求 。KKT 条 件 是 一 组 关于 x， 
入 ，v 的 等 式 和 不 等 式 方程 ， 它 为 很 多 带 约束 优化 问题 提供 了 求 得 解析 
解 的 思路 ， 这 里 我 们 略 去 其 具体 形式 ， 有 兴趣 的 读者 请 进一步 参考 参 
考 文献 [13] 中 详细 的 

说 明 。 

拉 格 朗 日 乘 子 法 和 KKT 条 件 为 带 约 束 优 化 问题 提供 了 标准 思路 。 
而 当 我 们 遇 到 的 带 约 束 优 化 问题 为 凸 优化 时 ， 完 全 可 以 沿 着 这 一 标准 
思路 来 解决 ， 当 问题 不 是 凸 优 化 时 ， 需 要 具体 分 析 强 对 侦 是 否 成 立 ， 
再 决定 求解 的 思路 。 

通过 拉 格 朗 日 方法 ， 我 们 可 以 将 一 个 带 约 束 优化 问题 转化 为 不 带 
约束 的 基本 优化 问题 来 解决 。 在 下 面 的 讨论 中 ， 我 们 将 根据 优化 问题 
的 特点 介绍 无 约束 优化 的 一 些 基 本 算法 。 


10.2.2 ANA 


在 有 些 问 题 中 ,，f 不 可 导 或 者 工程 上 求 导 代价 极 大 8 这 种 情形 下 ， 
假设 函数 值 是 连续 的 ， 我 们 有 一 种 目 然 的 思路 ， 那 束 古 采用 不 断 试 探 
的 方法 : 在 目 变 量 为 一 维 的 情况 下 ， 给 定 一 个 初始 区 间 ， 假 设 区 间 内 
有 唯一 的 最 小 值 ， 可 以 按照 黄金 分 割 的 方法 不 断 缩小 区 间 以 得 到 最 小 
值 。 


上 面 的 方法 也 可 以 推广 到 自 变量 是 高 维 的 情形 ， 对 应 的 算法 称 为 
下 降 单 纯 形 法 (downhill simplex method) 。 这 一 方法 有 一 个 更 直观 的 
称呼 ， 即 阿 米 巴 变形 虫 法 。 简 单 地 讲 ， 将 一 维 空间 上 用 两 个 点 限制 的 
区 间 不 断 变形 的 思路 加 以 推广 ， 在 D 维 空间 中 可 以 选择 一 个 D+1 个 点 张 
成 的 超 多 面体 或 称 为 单纯 形 (simplex) ， 然 后 对 这 一 单纯 形 不 断 变形 
以 收敛 到 函数 值 的 最 小 点 。 

有 关 下 降 单 纯 形 法 的 细节 和 代码 实现 可 以 参考 参考 文献 [66] 。 

10.2.3 梯度 下 降 法 

当 f 可 以 比较 容易 地 求 导 时 ， 基 于 梯度 的 方法 是 首要 选择 。 我 们 移 
来 看 一 下 梯度 的 定义 。 假 设 有 D 维 空间 中 的 自 变 量 x= (x, x. x) 
ER?， 那 么 函数 f (x) 在 x 点 的 梯度 可 以 写成 : 

£i Ox orp 

梯度 的 几何 意义 是 f 在 x 点 函数 值 上 升 最 快 的 方向 ， 因 此 它 是 一 个 
与 x 维 数 相等 的 矢量 。 利 用 梯度 的 优化 方法 概念 上 就 是 每 次 都 沿 着 梯度 
的 相反 方向 按 某 步 长 前 进 一 小 步 ， 这 样 的 方法 称 为 梯度 下 降 法 

(gradient descent) ， 其 更 新 公式 为 : 

zc—z-—«eVf(a) (10.8) 

其 中 + 控制 着 沿 梯度 负 方 向 下 降 的 速度 ， 称 为 学 习 率 (learning 


rate) 。 


(10.7) 


很 多 工程 中 的 目标 函数 都 具有 可 分 解 的 特性 ， 即 整个 训练 集 上 的 
梯度 可 以 表示 为 各 个 训练 样本 梯度 的 和 。 在 这 种 情况 下 ， 一 个 可 行 但 
效率 并 不 高 的 并 行 实现 就 是 将 计算 梯度 的 过 程 分 解 到 各 个 数据 划分 上 
分 别 完成 ， 然 后 将 各 部 分 的 梯度 相 加 并 更 新 参数 。 显 然 这 样 的 计算 过 
程 非常 容易 在 MapReduce 框 架 下 实现 ， 然 而 每 迭代 一 步 ， 都 要 用 到 训练 
集 所 有 的 数据 ， 可 想 而 知 ， 在 数据 规模 较 大 时 ， 这 种 方法 的 迭 计 算 效 
率 是 比较 低 的 。 

在 在 线 学 习 中 ， 梯 度 下 降 的 方法 还 有 另外 一 种 变形 ， 也 就 是 随机 
梯度 下 降 (Stochastic Gradient Descent, SGD) "的 方法 。 在 普通 梯度 
方法 中 ， 计 算 一 次 下 降 方 向 需要 很 大 的 计算 量 ， 而 SGD 的 每 一 次 迭代 
并 不 是 精确 地 计算 梯度 ， 而 是 基于 随机 选取 的 一 个 样 例 来 计算 梯度 。 
这 是 一 个 重要 的 简化 ， 在 实际 大 数据 的 情况 下 ， 这 比 普通 的 梯度 法 效 
果 更 好 。 从 计算 角度 来 看 ，SGD 并 不 容易 并 行 实现 ， 为 了 实现 其 并 行 
计算 ， 产生 了 一 系列 并 行 SGD 算 法 和 相应 的 机 器 学 习 框 架 ， 如 
Parallelized SGD 等 ， 有 兴趣 的 读者 可 以 深入 了 解 。 


10.2.4 WA th; 


在 实际 的 工程 问题 中 ， 简 单 地 采用 批 处 理 模 式 的 梯度 下 降 法 有 了 时 
会 遇 到 一 个 麻烦 : 当 函 数值 对 各 个 日 变量 归 一 化 不 够 好 时 ， 优 化 过 程 
会 陷入 Zig-Zag 折 线 更 新 的 困境 ， 这 一 现象 可 以 用 图 10-1 中 的 例子 来 形 
象 地 说 明 。 在 自 变量 维 数 很 高 时 ， 这 一 问题 尤为 严重 ， 因 为 我 们 无 法 
一 一 检查 各 个 自 变 量 的 意义 ， 因 此 在 某 些 维度 上 缩放 尺度 不 一 样 是 无 


法 避免 的 。 如 何 避 免 这 一 问题 呢 ? 我 们 假设 男 数 值 呈现 像 独 10-1 中 那样 
呈 近 似 的 二 次 曲面 状 ， 那 么 很 目 然 的 思路 就 古 引 入 二 阶 导数 信息 ， 以 
迅速 探索 到 函数 值 的 谷 确 。 


TONO og > 梯度 下 降 优化 路 径 


图 10-1 梯度 下 降 法 优化 过 程 陷 入 Zig-Zag 折 线 示意 
f (x) 的 二 阶 导 数 是 一 个 DxD 的 和 矩阵， 其 定义 为 : 
V*f(a) = OF (10.9) 
02:02; | 5.7 
这 是 一 个 DxD 的 和 矩阵， 我 们 称 之 为 赫 斯 矩阵 (Hessian matrix) 。 
同时 利用 梯度 和 二 阶 导数 做 优化 ， 相 当 于 在 当前 点 处 进行 二 阶 的 泰勒 
展开 ， 并 找到 此 二 次 曲面 的 极 小 值 点 ， 这 样 的 方法 称 为 牛顿 法 ， 其 更 


z—zre[Vif(m] V f(E) (10.10) 

当 +=1 时 ， 牛 顿 法 的 每 一 步 都 是 在 求 一 个 二 次 曲面 的 极 小 值 。 显 
然 ， 只 有 当 赫 斯 矩阵 正定 时 ， 极 小 值 才 存在 。 不 过 在 实际 的 优化 问题 
中 ， 即 使 目标 函数 存在 唯一 的 极 小 值 ， 也 不 能 保证 每 一 点 的 赫 斯 矩阵 
都 正定 ， 因 此 一 般 来 说 ， 牛 顿 法 并 不 是 想象 中 那样 可 行 。 

解决 上 面 的 问题 其 实 也 不 难 : 我 们 可 以 构造 一 个 不 太 精 确 ， 但 是 
可 以 保证 正定 的 伪 赫 斯 矩阵 ， 用 它 来 代替 实际 的 赫 斯 矩阵 更 新 参数 ， 
这 样 的 方法 就 是 工程 上 真正 使 用 的 拟 牛 顿 法 。 直 观 上 来 看 ， 利 用 前 面 
儿 次 迭代 的 画 数 值 和 梯度 可 以 近似 地 拟 合 出 赫 斯 矩阵 ， 而 随 着 拟 合 公 
式 的 不 同 ， 也 就 产生 了 不 同 的 拟 牛 顿 方法 。 拟 牛顿 的 一 种 常见 方法 是 
由 Broy-den ^ Fletcher ^ Goldfarb 和 Shanno 四 位 学 者 创造 的 ， 称 为 
BFGS JIA ° E BFGS 方法 中 ， 赫 斯 矩阵 的 逆 是 迭代 更 新 的 ， 其 更 新 
公式 如 下 : 


Biu xs B, t 


T Cal 
8,8, | VY, 及 从 ] 
一 一- | k 7 k | ms 一 一 sky; Bi + Buys | (10.11) 
Yg Sk Ys Yp Sk 


其 中 y=V,,-V, 为 前 后 两 次 的 梯度 差 ， 而 s,=x,,~x, 为 前 后 两 次 的 目 
变量 差 。 这 里 之 所 以 要 直接 操作 赫 斯 矩阵 的 逆 古 因为 在 牛顿 法 的 更 新 
中 ， 给 定 赫 斯 矩阵 的 敢 和 梯度 矢量， 可 以 通过 简单 的 矩阵 乘法 得 到 更 
新 方向 ， 从 而 避免 了 复杂 的 求 逆 过 程 。 


再 来 看 看 如 何 确定 公式 10.10 中 的 步 长 +。 牛顿 法 是 在 当前 自 变量 
点 进行 泰勒 展 开 ， 因 此 拟 合 出 来 的 二 次 曲面 严格 来 说 只 在 很 小 的 邻 域 
内 是 有 效 的 ， 因 此 我 们 完全 无 法 保证 按 公 式 10.10 或 得 到 更 好 的 画 数 
值 。 但 是 ， 当 1 足够 小 时 ， 一 定 可 以 找到 一 个 比 现 有 而 数值 更 优 的 点 。 
要 找到 这 样 一 个 合适 的 +， 需 要 根据 Wolfe 条 件 "， 即 要 求 1 满足 如 下 的 
不 等 式 : 

f(zx + py) < f (wn) + eV fi pr 
Vf (an + py) Pe Z CV fy Pr 

其 中 p 为 送 代 第 k 步 时 找到 的 下 降 方 向 ， 在 拟 牛 顿 法 中 即 为 BVf 
(x) , mÜ € C1 S C2 S 1 为 两 个 常数 a。 因此， 在 实际 的 拟 牛 屯 
法 中 ， 在 得 到 下 降 方向 后 ， 需 要 在 下 降 方向 上 进行 线 搜索 (line 
search) ， 以 找到 满足 Wolfe 条 件 的 + 用 以 更 新 参数 。 

需要 强调 ， 拟 牛顿 法 是 连续 优化 问题 中 最 为 基础 的 优化 方法 ， 它 
作为 原子 操作 大 量 地 被 用 在 其 他 更 为 复杂 的 优化 方法 当中 。 因 此 ， 对 
拟 牛顿 方法 熟练 地 掌握 和 应 用 是 工程 中 非常 重要 的 基本 技能 。 我 们 在 
下 面 附 上 BFGS 和 迭代 求解 的 代码 片段 。 


(10.12) 


直人 = 


© æ 


AV M PIHE 45h dg fide bh E as dx dE 
typedef vector<double> Vec; 
typedef void (*FP_EVAL) (const Vec & x, double & f x, Vec & df x, ...); 


/A ALOA, MBPS ALE psg 455) 3p] Hf 
void BFGS(FP.EVAL f, Vec k x0) { 
double f .xO, f xt; // 初始 和 更 新 后 目标 函数 和 值 
Vec df.x0, df xt; // 初始 和 更 新 后 梯度 
Vem xt. 853: 


f(x0, £.xO, áf 30): 


// BANHA X S] ARSE SC RT fS Ie 

int dim = xO.size(); 

vector<Vec> B; B.resize(dim); 

for(int i = 0; i < dim; i ++) { 
B[i].resize(dim, 0.0); 
B[il[i] = 1.0; 


int iter = 0; 
while(iter < MAX_ITER_NUM && dot(df xO, df x0) > TOL) 4 // 才 断 收 敦 


// KTERZS-BNf(c) 


d = scale(multiply(B, df xO), -1.0); 


A/ 线 搜索 
WolfeSearch(f, x0, d, xt); 
fixt. Sct, dior), 


s = minus(xt, x0); 
y = minus(df_xt, df_x0); 


ZA 选 代 更 新 竺 斯 拒 阵 的 着 
Vec t - multiply(B, y); 
double rho = 1.0 / dot(y, s); 
double 1 = dot(t, y) = rho = rho + rho; 
for (int i= 0; i < B.size(); ++ i) 
for {int J = 0; j <= 1; + 3) 4 
BCiJCj] -= rho + (s[i] * [j] + s[j] + t[1J) + 1 * efi] * sj]; 
EC$) Ci] = BCJ Cil; 
} 


f/f 进入 下 一 轮 选 代 
xO = xt; $ yO = f xt; dE 20 = df.xt; 


iter ++; 


这 上 段 代 码 仍 然 古 示例 性 的 ， 并 且 为 了 表述 人 简 涪 ， 其 中 用 到 了 未 预 
先 定 义 但 意义 很 清楚 的 简单 的 运算 函数 ， 例 如 用 dot 函数 计算 两 个 适量 
的 点 积 等 。 本 书后 面 的 一 些 代码 也 会 有 这 样 的 情况 ， 我 们 惑 不 一 一 讽 
明了 。 在 上 述 代 码 中 用 到 了 一 维 线 搜 索 求解 步 长 ， 即 其 中 的 
WolfeSearch is 2308 o LOB DLA 75 Se ze de T Wolfe PRATT 1A, RTE 
给 出 其 示例 性 代码 。 


// In 

ti f ， 习 标 函 数 

// «0 : HHAŽË 
// à ， 搜索 方向 

// Out: 

// at : 更 新 后 自 变量 


int WolfeSearch(FP EVAL f, const Vec & x0, const Vec & d, Vec & xt) { 
double f x0, f xt; 
vec df_x0, df xt; 


一 一 
c O 00-10 C*'£— WW 


11 f(x0, f x0, df.x0); 

12 

13 double leftBound = 0.0, rightBound = MAX; // 初始 搜索 区 间 [0，MAX] 
14 double alpha = 1;  // 初始 步 长 

15 double Ci = 0.1, C2 = 0.9; 

16 double ddt, dd0 = dot(d, df x0); 

17 

18 int iter = 0; 

19 while (iter < MAX ITER, NUM) { 

20 xt = x0; 

21 plusAssign(xt, alpha, d); // xt = x0 + alpha * Gd， 检 查 下 一 个 点 
22 

23 f(xt; f.xt; df rt): 

24 ddt = dot(d, df xt); 

25 

26 if (f xt > f x0 + Ci * alpha * dd0) 4 // 检查 函数 是 否 充 分 下 降 
27 rightBound = alpha; 

28 alpha = (leftBound + rightBound) / 2; 

29 J 

30 else if (ddt < C2 * dd0) 4 // 检查 Wolfe 条 件 是否 满 足 

3l leftBound - alpha; 

32 alpha = (leftBound + rightBound) / 2; 

33 } 

34 else return 0; // 找到 了 满足 信件 的 点 

35 iter ++; 

36 ) 

3T return -1; 


zo 
2o 
[I 


10.2.5 Trust-Region 法 


梯度 下 降 法 、 牛 顿 法 和 拟 牛 顿 法 都 属于 线 搜索 方法 ， 它 们 的 共同 
等 点 征 ， 在 当前 适 代 点 丸 处 寻找 下 一 个 适 代 总 xz 时， 首先 确定 一 个 下 降 
方向 ， 然 后 沿 着 这 个 下 降 方 向 进行 一 维 线 搜索 。 这 种 搜索 策略 可 以 概 
括 为 “ 先 方向 ， 后 步 长 ”。Trust-Region 法 采用 的 是 一 种 不 同 的 搜索 策 
RS: FARIT, RHR SS YE EB DR i ex, 的 一 个 置信 域内 ， 然 后 同时 决 
RE PURITAN AA Ak; ADORA BU ELÍAS SU RITTER, DURAN 
ARRAK dE BRÓGATCU. RINRKA REN s DE 


ska S Ok。 另外 为 了 单 次 迄 代 求解 的 效率 ， 用 画 数 在 x 附近 的 素 
gg mus) = f (Tk) 十 V'f(zx)s-- 3s! V (zk)s 
来 近似 原来 的 目标 画 数 f (x+s) 。 具 体 来 说 ， 每 一 次 迄 代 需 要 解 下 面 
形式 的 子 问题 : 
min f(x)+V f(zx)s+ Se is 
8 2 (10.13) 

[sla < à; 

通过 解 得 的 s 就 可 以 同时 获得 本 次 迭代 的 方向 和 步 长 。 由 于 此 过 
程 没有 对 目标 画 数 的 一 阶 导 和 二 阶 导 做 近似 ， 往 往 能 够 更 准确 地 把 握 
下 降 方向 ， 因 此 有 时 能 表现 出 比拟 牛顿 法 更 好 的 收敛 性 能 

在 公式 10.13 的 基础 上 ， 为 了 实现 Trust-Region 优 化 策略 ， 还 需要 
确定 置信 半径 8 的 选取 。 一 般 来 说 ， 可 以 通过 比较 模型 画 数 和 目标 本 
数 的 下 降 量 来 指导 置信 半径 的 选择 


f(zx) — fax + 8) 
m4,(0) — mz(s) 

如 果 Pk SO, a a AA, RR KH 
逼近 了 目标 函数 ， 我 们 期 望 p, 的 值 接近 于 1; 如 果 p, 的 值 较 小 ， 说 明 在 
当前 置信 域内 ， 模 型 画 数 和 目标 函数 差别 较 大 ， 需 要 缩小 当前 的 置信 
域 ， 如 果 p, 的 值 较 大 ， 可 以 在 下 次 迭代 时 适当 伸 长 收 钱 半径 。 在 这 一 
思路 的 基础 上 ， 我 们 附 上 Trust-Region 算 法 主流 程 的 代码 片段 。 


pk = 


1 | // 用 Trust-Region 方 法 求 习 标 函数 f 的 局 部 极 小 值 ， 选 代 初 始点 zz0 
2 |veid TrustRegion(FP_EVAL f, Vec & x0) + 

3 double delta, snorm, prered, actred, f xO, fif xt, rho; 
4 int iter = 0; 

5 Vec x0, xt, df.x0,; df xt, 5B, rj 

6 

T PCO, fox, BEOTI 

R delta = dot(df xO, df x0); 

9 double gnormi = delta; 

10 

11 while (iter < MAX_ITER_NUM) 1 

12 // 求解 子 习 题 16.13 AH s 

13 vr.cg(delta, df x0, &, rJ 

14 

15 ZA mt = 20+ 8: 

16 AA 37 Bus S AS MUR V Fas). A B EE ERR Ji) 

17 xt = x0: 

1s plusAssign(xt, 1, 3); 

19 ftat Pict. df.xt):; 

20 

| Age NE 

22 actred. = f.x0 - f.xt; 

23 prered = -0.5 + (dot(df x0, =) - dot(s, r)); 
24 rho = actred / prered; 

25 

26 /A FAAS 5638 ARS BS ER X IP 

ei snorm = dot(s, 5); 

28 if (iter == 0) delta = min(delta, snorm); 

29 

30 // TRAE E Anse. ARR BAA FAR Fo— RAIN, Pp RAG HE 
31 double delta_old = delta; 

32 delta = updateDelta(actred, prered, delta_old); 
33 

34 /A oy >n Margi = mecs G3. = Tk 

35 if (rho > ETAO) f 

36 xO = xt; f. x0 = f xt; df xO = df xt; 

3T double gnorz = dot(df x0, df xO); 

38 AA pg dA 

39 if (gnorm <= eps * gnormi) 

AD break; 

41 } 

42 iter ++; 

43 

44 


每 个 迭代 中 需要 解 子 问题 10.13， 即 代码 中 tr cg 的 函数 调用 。 显 
然 ， 这 是 一 个 市 约束 优化 问题 ， 由 于 V4 (x, ) 未 必 是 正定 的 ， 因 此 这 
并 不 古 一 个 凸 优 化 问题 。 不 过 ， 在 这 个 特殊 的 非 凸 优化 中 ， 读 者 可 以 
目 行 验证 ，KKT 条 件 是 可 以 满足 的 ， 因 此 仍然 可 以 用 拉 格 天 日 法 来 求 


解 。 我 们 略 去 求解 的 过 程 ， 直 接 给 出 下 面 的 解 。$ 为 问题 10.13 的 全 局 
最 优 解 ， 当 且 仅 当 S 本身 是 一 个 可 行 解 ， 并 且 存 在 入 > 0 满足 下 面 的 
Att 

(Hy, + M)8— - Vf (ag) 

Alô- lel) = 0 (10.14) 


(Hi Ls Al) 2 0 
BUS ANSE EE (HEAD) 是 半 正 定 的 。 当 “s 位 于 置信 域 


E " 
内 部 时 ，X=0， 有 显 式 解 $ 二 Hy Vf(zk), «Sep mp 
边界 上 时 ，X>0， 问 题 变 为 寻找 充分 大 的 X>0， 使 得 了 HI 半 正定 ， 并 且 
all (Hi + YY F(x) || = à 


“这 一 方程 的 根 ， 此 时 虽 
然 不 存在 显 式 解 ， 但 由 于 这 是 一 个 单 变量 的 优化 问题 ， 可 以 比较 方便 
地 用 线 搜索 的 方法 得 到 解 。 根 据 公式 10.14， 读 者 容易 写 出 tr_cg 画 数 的 
具体 实现 。 


10.3 统计 机 器 学 习 


机 妖 学 习 是 近年 来 得 到 快速 发 展 和 广 沁 应 用 的 研究 领域 ， 它 研究 
的 是 用 数据 或 完 验 知识 优化 计算 机 算法 的 效果 。 从 机 器 学 习 的 方法 可 
以 分 为 统计 方法 和 非 统 计 方法 。 非 统计 的 方法 种 类 很 多 ， 并 且 往 往 最 
后 都 归结 于 一 个 具体 的 优化 问题 ， 可 以 通过 深入 掌握 优化 理论 和 算 
法 ， 比 较 有 效 地 把 握 各 种 非 统 计 类 方法 。 而 统计 类 机 天 学 习 方法 ， 虽 
然 也 用 到 最 优化 方法 ,但 是 还 有 一 些 在 概率 框架 下 系统 性 的 思路 。 下 
面 我 们 把 统计 方法 的 脉络 稍 加 整理 ， 供 大 家 参考 。 


10.3.1 与 指 


统计 机 器 学 习 中 ， 指 数 族 形式 % 的 分 布 由 于 求解 的 方便 性 ， 有 非常 
重要 的 工程 地 位 ， 我 们 先 来 看 一 下 这 一 族 分 布 形 式 产 生 的 原因 。 要 了 
解 指数 族 形 式 产生 的 原因 ， 和 需要 先 了 解 最 大 信 (Maximum Entropy, 
ME) 原理 *。 最 大 炉 原 理 告诉 我 们 ， 当 在 某 些 约束 条 件 下 选择 统计 模 
型 时 ， 需 要 尽 可 能 选择 满足 这 些 条 件 的 模型 中 不 确定 性 最 大 的 那个 。 
WO ARR FA EA tT AN EY Ee, AA La BE PEI EZ 
PRR ECA Talal o FERRARA EUR ft 1 LR BS] UGG IR TR RT 
以 表示 成 : 
Dp (a) =arg max H(z) 

p(x) 


(10.15) 
$t. Eyl fa(a)| = Es[fa(x)], d=1,---,D 

其 中 H (x) =-p (x) np (x) 为 概率 分 布 (x) ANH, f, G0 为 

一 组 特征 函数 ， 而 优化 中 约束 的 意义 是 这 一 组 特征 函数 在 模型 p (x) 


下 的 均值 等 于 其 数据 上 的 均值 (p(x) 为 数据 分 布 ) 。 有 时 和 是 用 最 大 
MERRE- REED (xly) ， 在 这 种 情形 下 ， 可 以 很 方便 地 构 
造 一 个 相应 的 根据 特征 x 对 标签 y 进行 分 类 的 模型 ， 本 书后 面 将 谈 到 的 
护 击 率 预 测 的 逻辑 回归 模型 也 属于 此 最 大 烂 模型 的 特例 。 

上 上面 的 最 大 烂 问 题 的 男 一 项 产 出 就 是 指数 族 分 布 。 将 拉 格 天 日 方 
法 应 用 于 问题 10.15， 有 一 项 重要 的 结论 ， 就 古 求 其 最 大 粹 解 等 价 于 求 
一 个 对 应 指数 形式 分 布 的 最 大 似 然 解 。 这 样 的 结果 市 来 了 指数 族 分 布 
这 一 工程 中 非常 常用 的 分 布 形式 。 指 数 族 分 布 的 归 一 化 形式 (canonical 
form) 可 以 表示 为 : 
p(a|0) = h(a)g(8) exp{0 ulz)} (10.16) 

在 这 一 形式 中 ，u (x) WEHE (x) 素 合 在 一 起 的 矢量 形式 ; ON 
指数 族 分 布 的 参数 ， 而 g (0) 为 使 得 概率 密度 曲线 下 面积 为 1 的 归 一 
化 项 。 指 数 族 分 布 在 建 模 上 被 广泛 采用 是 因为 一 个 重要 的 特性 : 指数 
族 分 布 参数 的 最 大 似 然 估 可 以 完全 由 其 充分 统计 量 (sufficient 


statistics ) 

得 到 。 这 里 的 充分 统计 量 指 的 是 训练 集 上 变换 函数 u (x) 的 统计 

N 
= Ee u(z;) Ae VRE j> = LN SR ER 
=, OB 。 在 给 定 了 充分 统计 量 以 后 ，8 的 最 大 似 然 解 可 
以 通过 解 下 式 求 得 : 
1 N 

-Vlng(8ur) = N 2 ula) (10.17) 


这 一 概念 强调 的 是 ， 在 给 定 充分 统计 量 以 后 ， 最 大 似 然 估 计 过 程 
与 数据 无 天 。 根 据 充分 统计 量 的 形式 ， 我 们 很 容易 得 出 ， 无 论 什么 样 
的 指数 族 分 布 ， 都 只 需要 人 裔 历 一 人 吉 数 据 就 可 以 得 到 最 大 似 然 解 ， 这 一 
点 实际 上 对 应 了 一 个 非常 简便 的 MapReduce 实 现 。 这 也 是 指数 族 分 布 在 
大 数据 运算 上 市 给 我 们 的 最 大 便利 性 。 由 于 指数 族 的 分 布 形 式 与 最 大 
炉 原 理 的 本 质 联 系 ， 这 一 族 的 许多 重要 分 布 都 可 以 从 最 大 烂 的 角度 加 
以 解释 。 表 10-1 总 结 了 几 种 重要 的 指数 族 分 布 形式 以 及 其 主要 用 于 摘 述 


的 变量 类 型 。 


表 10-1 夯 干 重要 指数 族 分 布 形 式 


SMM 


从 表 10-1 给 出 的 示例 中 可 以 发 现 指数 族 分 布 的 另 一 个 重要 特点 
一 一 分 布 都 是 单 模 态 (uni-modal) 的 。 所 谓 单 模 态 ， 可 以 理解 为 分 布 
从 几何 形态 上 看 只 有 一 个 峰 或 者 一 个 谷 ， 这 说 明 指 数 族 分 布 虽然 数学 
上 使 用 方便 ， 但 其 实际 的 摘 述 能 力 症 有 限 的 ， 并 不 适合 于 表达 多 种 因 
素 并 存 的 随机 变量 。 


10.3.2 混合 模型 和 EM 


由 于 指数 族 分 布 古 单 模 态 的 ， 因 而 不 适用 于 分 布 比较 复 哥 的 数据 
建 模 。 为 了 解决 这 个 问题 ， 同 时 又 能 充分 利用 到 指数 族 分 布 的 一 些 方 
便 的 性 质 ， 工 程 领域 产生 了 采用 多 个 指数 族 分 布 咎 加 的 部 分 来 建 模 的 
实用 方法 ， 即 混合 模型 (mixture model) 。 指 数 族 分 布 形式 的 混合 模型 
可 以 表示 为 : 

K 


w,0)- ) wph(a)g(Ox.) exp(6, u(a)] (10.18) 
k=l 
其 中 w= (o, = o) 为 各 个 组 成 分 布 先 验 概率 ， 而 9={6 ，.… 


0.} 表 示 各 个 组 成 分 布 的 参数 。 这 一 分 布 的 图 模型 如 图 10-2 所 示 。 


p(w 


Ww 


图 10-2 混合 分 布 的 概率 图 模型 表示 

在 许多 种 见 的 机 融 学 习 模 型 当中 ， 根 据 多 个 变量 的 条 件 依赖 天 
系 ， 图 10-2 的 有 癌 图 模型 可 以 比较 清晰 地 表达 整体 的 联合 分 布 。 有 问 图 
模型 的 每 一 个 节 扩 代表 一 个 随机 变量 ， 而 给 是 了 该 变量 所 有 入 边 对 应 
的 起 始 节 点 后 ， 该 变量 的 分 布 与 其 他 所 有 变量 都 条 件 无 天 。 需 要 指 
出 ， 有 疝 图 模型 本 映 只 给 出 了 条 件 依赖 关系， 并 没有 明确 各 条 件 分 布 
的 形式 。 一 般 来 说 ， 我 们 在 工程 中 的 思路 是 ， 用 图 模型 表达 先 验 的 变 
量 结构 关系 ， 然 后 对 每 个 条 件 分 布 选取 合适 的 指数 族 分 布 来 建 模 ， 而 
混合 分 布 模型 束 定 了 解 这 种 工程 思路 的 最 典型 例 于 。 按 照 上 面 的 有 器 


图 模型 表示 ， 我 们 引入 了 多 项 式 变 量 z= (n.o. zn) :来 明确 表示 状 
仿 ， 可 以 把 混合 分 布 改写 成 结构 更 清晰 的 表达 式 : 


p(zlw,O) = = {hi 2)9(0,) exp(6, u(a M (10.19) 


TE nomm ——À 最 大 期 望 (Expectation- 
Maximization, EM) 算法 起 着 非常 重要 的 作用 。 从 上 面 的 概率 图 模型 
例子 可 以 看 出 ， 除 了 要 求解 的 参数 o、@ 和 观测 到 的 变量 x， 还 存在 一 个 
变量 z， 我 们 把 这 样 的 变量 称 为 隐 变 量 (hidden variable) 。EM 算 法 就 
是 为 了 解决 有 隐 变 量 存在 时 的 最 大 似 然 估 计 问 题 的 。 这 是 一 种 迭代 的 
算法 ， 每 个 迭代 又 可 以 分 为 E-step 和 M-step。 在 E-step 阶 段 ， 将 参数 变 
量 和 观测 变量 都 固定 ， 得 到 隐 变 量 的 后 验 分 布 ， 在 M-step 阶 段 ， 用 得 
到 的 隐 变 量 的 后 验 分 布 和 观测 变量 再 去 更 新 参数 变量 。 以 上 面 的 混合 
分 布 问 题 为 例 ， 在 EM 算法 的 每 一 步 和 迭代 当中 ， 都 转 而 求解 以 下 辅助 函 
数 优化 问题 : 


maxglweio ,6 | - up) A (zX w 0") Inp(X,w,O|z) (10.20) 


由 于 此 时 的 隐 变 量 z 是 离散 的 因此 等 式 右边 为 求 和 的 形式 ， 如 有 果 
在 其 他 问题 中 遇 到 的 隐 变 量 是 连续 的 ， 那 么 只 需要 将 求 和 号 换 成 积分 
号 即 可 。 

对 应 于 公式 10.20， 指 数 族 混合 分 布 EM 算法 的 E-step 和 M-step 可 
以 很 容易 求 出 ， 其 结果 如 下 式 : 


old ,./ gold old 
wh glo, Jexp{u (zi | 


Estep: ^k) Epy = 10 iuti n) EE Wk (9 
il ( | | M uf (7 )exp{u (wi)00"} | 
LGN 
M-step: - Vlno(07 ^) = — ^; (k)u(a; | 
new _ LW „(k 
Wh De N isi jl ) 


在 混合 分 布 的 情形 下 ， 这 种 分 解 使 得 许多 非 指 数 族 分 布 的 模型 在 
进行 最 大 似 然 佑 计时， 其 M-step 形式 上 与 简单 的 指数 族 分 布 是 一 致 
的 ， 这 也 使 得 指数 族 分 布 工程 上 的 便利 性 得 以 继续 发 挥 。 虽 然 M-step 
的 形式 与 指数 族 最 大 似 然 估 计 的 形式 公式 10.17 非 常 相近 ， 我 们 却 不 宜 
将 等 式 右边 的 部 分 也 称 为 充分 统计 量 ， 因 为 这 一 过 程 是 迭代 进行 的 ， 
需要 多 次 访问 数据 才能 完成 最 大 似 然 人 和 估计， 因此， 简单 地 称 其 为 统计 
量 更 为 准确 。 

指数 族 分 布 的 混合 模型 在 工程 中 的 应 用 同样 很 广泛 ， 只 要 是 单 模 
态 分 布 不 易 刻 画 的 数据 分 布 都 可 以 考虑 用 某 种 指数 族 分 布 琶 加 的 方式 
更 精确 地 建 模 。 常 见 的 混合 模型 ， 如 高 斯 混合 模型 (Mixture of 
Gaussians，MoG) 和 概率 潜在 语义 索引 (Probabilistic Latent Semantic 
Index，PLSI) ， 可 以 认为 后 者 是 建立 在 多 项 式 分 布 基础 上 的 混合 模 
型 ， 在 文本 主题 分 机 中 有 着 广泛 的 应 用 。 

需要 注意 的 是 ， 指 数 族 混合 分 布 的 EM 算法 只 是 EM 算法 的 一 种 较 
简单 的 特殊 情况 ， 这 一 算法 广泛 应 用 于 各 种 隐 变 量 存在 的 统计 模型 训 


练 中 ， 有 关 这 方面 更 详细 的 理论 和 应 用 介绍 可 以 参考 参考 文献 [9， 
28] ° 


Y 


10.3.3 之 


以 上 讨论 的 模型 参数 估计 方法 都 是 在 最 大 似 然 准则 下 进行 的 。 最 
大 似 然 准则 是 把 模型 的 参数 看 成 固定 的 ， 然 后 找到 使 得 训练 数据 上 似 
然 值 最 大 的 参数 ， 这 是 一 种 参数 点 估计 (point estimation) 的 方法 。 这 
样 的 点 估计 方法 在 实际 中 如 果 遇 到 数据 样本 不 足 的 情形 ， 往 往 会 产生 
比较 大 的 估计 偏差 。 对 此 ， 工 程 上 常常 用 到 贝 叶 斯 学 习 的 方法 论 。 为 
了 介绍 贝 叶 斯 学 习 的 基本 概念 ， 我 们 先 从 下 面 的 贝 叶 斯 公式 入 手 了 解 
其 中 的 关键 概念 。 

WME 先 验 分 布 

—— ~~ 

_ p(X|I0) p(0) 


jx) -A HO (10.23) 
p(X) 
后 验 分 布 evidence 


在 贝 叶 斯 体系 下 ， 模 型 参数 6 不 再 被 认为 是 固定 不 变 的 量 ， 而 是 服 
从 一 定 分 布 的 随机 变量 。 在 没有 数据 文 持 的 情况 下 ， 我 们 对 其 有 一 个 
假设 性 的 分 布 p (8) ， 这 称 为 先 验 分 布 (prior) ， 而 在 观测 到 数据 集 
X={x，…，x} 以 后 ， 根 据 数据 集 上 表现 出 来 的 似 然 值 \likelihood) p 
(Xjg) ， 可 以 得 到 调整 后 的 后 验 分 布 p (OX) 。 先 验 分 布 、 后 验 分 布 
和 似 然 值 之 间 的 变换 关系 就 通过 上 面 的 贝 叶 斯 公式 表达 出 来 。 等 式 右 
侧 的 分 母 项 也 是 贝 叶 斯 学 习 中 的 一 个 重要 概念 ， 称 为 evidence， 它 可 以 


展开 表示 为 p (X) =Rp (Xð) p (0) db。 由 贝 叶 斯 公式 和 这 些 重要 
概念 出 发 ， 表 10-2 对 比 了 三 种 常见 的 模型 估计 方法 。 
表 10-2 若干 常见 模型 估计 方法 


模型 估计 方法 参数 估计 To 
最 大 似 然 方法 p(o|X) = pos ) 
m WAX) = fX) = f 8X) 
[AP 
= arg maxo p( 


TT eer N MAP 
最 大 后 验 概率 方法 Oy =argmaxg p(X) p(o|X) = p(oy ) 


概率 统计 模型 有 两 个 常见 任务 : 一 是 参数 估计 (parameter 
estimation) ， 二 是 预测 (prediction) 。 其 中 第 二 项 任务 指 的 是 给 定 一 
组 训练 数据 X ， 评 估 某 新 的 观测 数据 o 的 概率 。 在 最 大 似 然 体系 中 ， 
参数 估计 是 根据 似 然 值 最 大 化 得 到 的 点 估计 ， 而 预测 过 程 就 利用 估计 
出 来 的 参数 计算 似 然 值 p (00) 即 可 。 在 贝 叶 斯 体系 下 ， 参 数 的 点 估 
计 为 其 后 验 分 布 所 代替 ， 也 就 意味 着 参数 在 估计 结果 中 具有 不 确定 
性 ， 于 是 ， 在 预测 过 程 中 ， 需 要 用 积分 的 方式 将 参数 的 不 同 可 能 性 都 
加 以 考虑 ， 这 是 两 者 非常 本 质 的 区 别 。 还 有 一 种 常见 的 参数 估计 方 
法 ， 即 最 大 后 验 概 率 (Maximum A Posterior，MAP) 方法 ， 它 本 质 上 
仍然 是 点 估计 方法 ， 只 不 过 同样 引入 了 先 验 部 分 对 参数 作 规范 化 ， 因 
此 ， 其 参数 估计 形式 上 是 对 贝 叶 斯 后 验 概 率 求 极 值 ， 而 预测 过 程 则 与 
最 大 似 然 情形 一 样 。 

1.25898 7:25 


贝 叶 斯 方法 的 天 键 问 题 之 一 是 如 何 选 择 公 式 10.23 中 的 先 验 分 布 p 
(0) 。 这 一 点 有 两 层 仿 义 ， 一 是 如 何 选 择 先 验 分 布 的 形式 ， 二 是 如 何 
确定 先 验 分 布 中 的 参数 。 之 所 以 要 讨论 这 个 问题 ， 是 因为 虽然 先 验 分 
布 的 形式 是 我 们 选择 的 ， 但 后 验 分 布 p OX) 的 形式 却 无 法 选择 ， 而 
后 验 分 布 才 是 在 使 用 中 最 关键 的 ， 其 形式 如 来 过 于 复杂 ， 会 给 实际 应 
用 市 来 很 大 困难 。 如 琳 我 们 能 够 找到 一 种 先 验 分 布 ， 使 得 相应 的 后 验 
分 布 也 具有 同样 的 形式 ， 无 疑 是 方便 的 。 满 足 这 种 条 件 的 先 验 分 布下 
MAYEN (conjugate prior) ° 

对 于 指数 族 分 布 的 似 然 函 数 ， 容 易 发 现 共 祁 先 验 总 是 存在 的 ， 这 
又 一 次 说 明了 指数 族 分 布 在 工程 上 的 便捷 性 。 对 于 公式 10.16 的 指数 族 
分 布 形式 ， 其 共 斩 先 验 可 以 一 般 性 地 写成 : 


p(0m) = exp (x 8 — vg(0) — b(x, y)i (10.24) 
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式 ， 其 用 到 的 数学 工具 也 就 与 前 面 的 讨论 一 致 。 这 一 先 验 分 布 的 参数 
n={x, v}PK AMBER (hyper-parameter) , n 控制 着 先 验 分 布 的 具体 形 
状 。 

将 前 面 介绍 的 几 种 典型 指数 族 分 布 与 公式 10.24 相对 照 ， 可 以 得 到 
DA PARSER e 

(1) 对 于 高 斯 分 布 ， 如 果 仅 仅 考虑 其 均值 的 不 确定 性 ， 对 应 的 共 
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(2) 对 于 y 分 布 ， 其 对 应 的 共 斩 先 验 称 为 维和 硕 特 分 布 (Wishart 
distribution) 。 
(3) 对 于 多 项 式 分 布 ， 其 对 应 的 共 思 先 验 是 狄 利克 雷 分 布 
(Dirichlet distribution) 。 多 项 式 - 狄 利克 雷 这 一 共 斩 对 是 后 面 介 绍 的 
文本 主题 分 析 中 非常 重要 的 分 布 形式 。 
当 模 型 为 指数 族 分 布 并 选择 共 斩 先 验 的 情形 下 ， 对 应 的 后 验 分 布 p 
(0X) 可 以 很 简单 地 写成 下 面 的 形式 : 


N 

= xt, um) (10.25) 
= v+N (10.26) 
这 里 用 变量 上 的 波浪 绕 代 表 后 验 。 我 们 又 一 次 看 到 ， 指 数 族 分 布 
的 充分 统计 量 在 这 里 仍然 发 挥 了 核心 作用 ， 其 结果 使 得 贝 叶 斯 学 习 中 
后 验 概率 分 布 的 计算 非常 简便 。 需 要 特别 指出 ， 选 择 共 罗 的 先 验 形 
式 ， 从 贝 叶 斯 体系 来 看 并 没有 太 多 理论 上 的 必然 性 ， 这 主要 是 为 了 江 
足 工程 上 的 方便 性 。 

同样 是 从 工程 上 来 说 ， 采 用 贝 叶 斯 方案 的 目的 是 为 了 对 模型 参数 
进行 约束 ， 以 提高 估计 的 稳健 型 。 因 此 ， 超 参数 的 选择 同样 十 分 关 
键 ， 因 为 超 参数 的 取信 决定 了 模型 参数 的 自由 程度 。 在 实际 应 用 中 ， 
可 以 根据 一 些 领域 知识 和 经 验 来 设 定 超 参数 值 ， 但 是 这 样 的 方法 有 两 
个 问题 。 

(1) 当 模 型 过 于 复杂 ， 超 参数 数目 太 多 时 ， 不 太 可 能 都 根据 经 验 
相对 合理 地 设 定 超 参数 。 


Ti >e: 


(2) 采用 这 种 主观 的 方式 设 定 超 参数 ， 必 然 导 致 在 一 个 固定 的 数 
据 集 上 参数 估计 的 结果 会 随 着 主观 超 参数 的 不 同 而 变化 ， 这 有 些 背 离 
数据 建 模 的 客观 性 。 因 此 ， 有 必要 探索 一 种 数据 驱动 的 超 参 数 设 定 方 
iE © 

2. 经 验 贝 叶 斯 

数据 驱动 的 超 参数 决定 方法 中 ， 经 验 贝 叶 斯 的 方法 值得 大 家 注 
意 。 在 公式 10.23 中 ， 右 边 的 分 母 ， 即 evidence， 是 将 模型 参数 积分 后 的 
似 然 值 的 期 望 。 可 以 注意 到 ， 在 似 然 值 和 先 验 部 分 的 形式 确定 的 前 提 
下 ，evidence 仅 仅 是 先 验 部 分 的 函数 。 从 概念 上 来 看 ， 如 果 把 evidence 
认为 是 超 参数 对 应 的 似 然 值 ， 那 么 也 可 以 用 优化 evidence 的 方式 找到 
最 优 的 超 参 数 。 这 种 根据 数据 来 确定 超 参 数 的 方法 就 称 为 经 验 贝 叶 
斯 ， 其 优化 问题 可 以 表示 为 : 


i A 
f) = arg max | | [»(Xi6)»(6;1m)6; 
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框架 。 需 要 说 明 ，evidence 框 架 除 了 能 够 用 于 确定 超 参 数 ， 同 样 可 以 用 
于 在 若干 种 先 验 部 分 形式 中 作 选 择 ， 选 择 标准 仍然 是 判断 各 种 分 布 的 
evidence 的 大 小 。 上 式 中 还 有 一 点 需要 特别 注意 ， 那 就 是 我 们 是 假设 
i=l, =, K 个 模型 共享 同一 个 先 验 分 布 。 从 后 面 的 讨论 可 知 ， 只 有 当 K 
>1 的 时 候 ， 上 面 的 经 验 贝 叶 斯 问题 才 会 有 非 退 化 的 解 。 


在 公式 10.27 中 ，X 为 观测 量 , n 为 参数 ， 而 9 实际 上 是 隐 变 量 。 
此 ， 最 直接 的 思路 仍然 是 使 用 EM 算法 "来 求解 。 当 p (x0) 为 指数 族 分 
布 ， 而 p (Op) 为 其 共 斩 先 验 分 布 时 ， 对 应 的 EM 辅助 画 数 可 以 写成 下 
面 的 表达 形式 : 
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Qt) = | WOX) ap; Bijna 
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K ， 
- [ loli) n(n, «c 
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请 注意 ， 在 这 里 用 到 了 共 斩 先 验 的 性 质 ， 即 后 验 分 布 有 着 与 先 验 
~ old 
分 布 一 样 的 行为 ， 并 且 将 第 i 个 模型 的 后 验 超 参数 记 为 ?1 o 仔细 观察 
这 一 结果 ， 如 果 把 6 当成 数据 ，n 当 成 参数 ， 那 么 已 知 的 后 验 分 布 


1 s sete 

K Xiz POA) 可 以 看 成 是 数据 的 分 布 ， 而 Inp (Om) WA 
当 于 参数 n 在 此 数据 集 上 对 应 的 似 然 值 。 于 是 ， 对 此 辅助 画 数 的 优化 相 
当 于 是 在 此 数据 分 布 上 对 n 进行 最 大 似 然 估计 。 又 由 于 P (Om) 也 是 
指数 族 分 布 ， 其 最 大 似 然 估计 可 以 通过 充分 统计 量 得 到 。 该 经 验 贝 叶 
斯 问题 的 E-step 和 MLstep 可 以 表示 成 下 面 的 形式 ; 
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E-step: gH _ y 4 ) ua) jold - „od +N 
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step 是 一 个 关于 nm 的 方程 ， 此 方程 是 否 有 闭 陈 解 与 具体 的 指数 族 分 布 形 
AAA” 


10.4 统计 模型 式 优化 


在 上 面 介 绍 的 一 些 统计 机 咽 学 习 模 型 中 可 以 发 现 ， 指 数 族 分 布 及 
其 充分 统计 量 在 计算 流程 中 起 着 非常 关键 的 枢纽 作用 。 不 论 是 指数 族 
分 布 的 最 大 似 然 解 、 指 数 族 混合 分 布 的 最 大 似 然 解 ， 还 是 指数 族 分 布 
的 贝 叶 斯 学 习 ， 如 果 采 用 MapReduce 的 计算 框架 ， 都 可 以 用 图 10-3 来 
描述 。 
(充分 ) 统计 量 
数据 Mapper Reducer 
( 计算 统计 量 ) ( 更 新 模型 ) 


10-3 指数 族 分 布 MapReduce 学 习 框 以 


从 这 一 计算 流程 可 以 看 出 ， 对 于 大 规模 数据 上 的 许多 机 器 学 习 计 
算 问题 ，MapReduce 是 一 个 可 行 的 选择 ， 因 为 在 机 器 之 间 交 换 的 数据 只 
是 统计 量 或 者 充分 统计 量 ， 其 空间 复杂 度 仅仅 与 模型 的 参数 数目 有 
关 ， 与 数据 的 多 少 并 无 直接 关系 。 不 过 ，MapReduce 的 方案 却 并 不 是 一 
个 高 效 的 方案 ， 当 算法 需要 多 次 迭代 才能 完成 的 时 候 ， 由 于 需要 在 每 
次 Map 过 程 中 重新 加 载 数 据 ， 使 得 整个 过 程 的 WO 负担 变 得 较 重 ， 从 而 
降低 整个 计算 过 程 的 效率 。 这 里 的 分 析 主 要 是 针对 上 面 指 数 族 分 布 相 
关 的 概率 估计 问题 ， 但 是 对 于 前 面 提 到 的 迭代 式 优化 问题 也 同样 成 
X. o 

由 于 MapReduce 方案 在 面 对 选 代 求 解 问题 时 效率 不 高 ， 我 们 应 该 
考虑 其 他 替代 方案 。 当 数据 的 规模 可 以 承受 时 ， 采 用 Spark 之 类 的 计算 
框架 会 更 加 高 效 ， 可 以 参考 9.5.9 一 节 中 的 介绍 。 而 在 Hadoop 新 一 代 的 
调度 需 YARN 的 基础 上 ，Spark 可 以 直接 架设 在 Hadoop 底 层 的 分 布 式 存 
fii HDES 上 ， 这 使 得 数据 可 以 直接 在 Spark 的 计算 过 程 中 复 用 ， 并 没 
有 在 不 同 集群 之 间 大 量 传递 数据 的 开销 。 
本 书 由 l'ePUBw. COM | 整理 ，ePUBw.COM 提 


供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


合约 广告 的 关键 特征 是 广告 投放 的 价格 和 量 由 双方 协商 约定 。 合 
约 广告 的 最 初 形 式 是 按 广 告 位 售卖 的 CPT 广 告 ， 而 这 样 的 CPT AHF 
期 系统 并 不 是 一 个 个 性 化 系统 ， 技 术 实 现 上 相对 简单。 不 过 ， 在 实际 
的 媒体 广告 投放 中 ， 经 常会 遇 到 CPT 广 告 与 其 他 服务 器 决策 的 动态 广 
告 混 合 的 情形 ， 并 需要 处 理 动态 广告 返回 失败 时 的 防 天 窗 问 题 。 本 章 
将 会 介绍 这 样 一 个 混合 排 期 系统 的 决策 框 染 。 
合约 三 告 的 重点 形式 是 按 指 定 受 众 购 天 的 、 按 CPM 计 费 的 展示 量 
告 。 展 示 量 合约 广告 的 投 送 系统 称 为 担保 式 投 送 系统 。 它 依赖 
于 受众 是 同 、 流 量 预测 、 点 击 率 预测 这 三 项 基本 技术 ， 并 采用 在 线 分 
配 的 方式 完成 实时 决策 。 由 于 受众 定向 和 点 击 率 预测 的 重要 程度 已 经 
超出 了 合约 广告 的 范畴 ， 我 们 会 在 后 续 的 章节 中 陆续 介绍 。 而 在 线 分 
配 问 题 ， 即 在 一 组 合约 量 的 约束 条 件 下 ， 对 每 个 在 线 到 达 的 展示 作 投 
放 决 策 ， 以 优化 某 效 果 目 标 这 一 问题 ， 将 是 本 章 介绍 的 重点 技术 。 
担 人 式 投 送 的 决策 逻辑 比较 复杂 ， 而 且 在 目前 苋 价 广告 为 主 的 市 
场 环 境 中 显得 有 些 过 时 。 然 而 ， 此 问题 的 研究 却 对 广告 中 广泛 存在 
的 “ 量 的 约束 下 优化 效果 ”这 一 根本 诉求 给 出 了 重要 的 框架 ， 而 这 一 框 
以 在 各 种 市 场 形态 中 都 有 具体 的 表现 形式 ， 比 如 后 面 章 节 中 将 介绍 的 
ADX 中 的 询 价 优化 问题 等 。 因 此 ， 我 们 希望 能 从 两 个 方面 介绍 此 问题 


A, 


的 一 般 性 思路 : 一 是 在 未 来 流量 分 布 未 知 的 情形 下 ， 如 何 估计 在 线 分 
配 算 法 的 极限 性 能 ， 二 是 在 根据 历史 数据 能 进行 相对 合理 的 流量 预测 
的 情形 下 ， 如 何 利用 这 些 预测 搭建 一 个 实用 的 在 线 分 配 系统 。 

按 CPM 售 卖 的 合约 广告 除了 上 述 的 核心 算法 ， 还 有 两 项 广泛 应 用 
的 文 持 技术 ， 即 流量 预测 和 频次 控制 。 其 中 流量 预测 是 在 线 分 配 的 基 
础 ， 也 是 后 面 葛 价 广告 系统 中 广泛 使 用 的 功能 。 有 多 种 流量 预测 的 方 
法 ， 本 章 将 介绍 一 种 基于 信息 检索 技术 的 方案 。 而 频次 控制 则 是 广告 
主 为 了 展示 的 有 效 性 提出 的 控制 性 要 求 。 关 于 这 两 项 拉 术 的 业务 背景 
和 常用 的 技术 方案 也 将 在 本 章 中 介绍 。 


11.1 广告 排 期 系统 


对 于 按 CPT 结 算 的 广告 位 合约 ， 媒 体 一 般 采 用 广告 排 期 系统 来 管理 
和 执行 。 广 告 排 期 系统 与 我 们 后 面 要 讨论 的 各 种 广告 系统 都 不 同 ， 因 
为 它 并 不 是 一 个 个 性 化 系统 ， 也 不 太 需 要 服务 器 端的 动态 决策 。 广 告 
排 期 系统 的 一 般 技术 方案 是 将 广告 素材 按照 预先 确定 的 排 期 直接 插入 
媒体 页 面 ， 并 通过 内 容 分 发 网 络 (Content Delivery Network，CDN) 加 
速 访问 。 这 样 可 以 使 得 广告 投放 延迟 很 小 ， 也 没有 服务 端的 压力 和 开 
FH o 

广告 排 期 系统 需要 注意 的 拉 术 环节 是 在 与 其 他 动态 广告 相 混合 投 
放 时 的 调度 策略 。 由 于 广告 位 合约 的 方式 不 需要 在 服务 器 端 计算 ， 因 
此 在 混合 投放 时 ， 要 充分 考 虚 这 一 特点 ， 尽 可 能 地 减少 服务 絮 的 负 


载 。 男 外 一 个 相关 的 问题 就 是 当 一 些 横幅 广告 位 上 没有 广告 位 合约 ， 
需要 用 其 他 服务 器 动态 决策 的 广告 补足 时 ， 由 于 服务 右 可 能 出 现 超 时 
或 其 他 错误 导致 广告 未 能 返回 ， 那 么 也 需要 在 页 面 上 展示 一 个 默认 广 
告 防止 出 现 广告 位 的 空白 ， 这 样 的 广告 称 为 防 天 窗 广 告 。 防 天 窗 广 告 
由 于 需要 在 服务 器 不 工作 的 情形 下 补 位 ， 因 此 也 应 该 放 在 CDN 上 实 
现 。 下 面 详细 介 绍 这 类 混合 投放 时 的 决策 逻辑 。 

排 期 与 动态 广告 混合 系统 

对 一 个 广告 位 合约 与 动态 广告 混合 投放 的 系统 来 说 ， 需 要 同时 考 
虚 CPT 广 告 和 防 天 窗 广告 的 投放 逻辑 。 我 们 以 Web 页 面 上 的 广告 投放 
为 例 来 描述 这 一 调度 过 程 ， 此 过 程 的 示意 图 如 图 11-1 所 示 。 


前 端 代码 
是 否 CPT 广 告 ? 
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图 11-1 排 期 与 动态 广告 混合 投放 决策 逻辑 


(1) 首先 ， 前 端的 广告 位 代码 从 CDN 上 获取 一 个 默认 广告 素材 以 
及 标示 此 广告 是 优先 的 CPT 广 告 还 是 防 天 窗 广告 的 参数 。 

(2) 根据 上 述 参 数 ， 如 果 CDN 上 获得 的 是 一 个 CPT 广 告 ， 那 么 直 
接 将 素材 泻 染 在 页 面 上 即 可 。 

(3) 如 果 CDN 上 获得 的 是 一 个 防 天 窗 广 告 ， 则 优先 向 广告 投放 机 
发 送 请 求 ， 如 果 在 指定 延迟 时 间 内 有 广告 返回 ， 则 将 其 泻 染 在 页 面 
Ee 


(4) 如 果 服 务 器 在 指定 延迟 时 间 内 没有 广告 返回 或 发 生 其 他 错 
误 ， 则 将 从 CDN 里 得 到 的 防 天 窗 广告 渔 染 在 页 面 上 。 

可 以 很 容易 地 验证 ， 只 要 CDN 不 发 生 锯 误 ， 这 样 的 系统 可 以 保证 
不 会 出 现 广 告 位 上 的 天 窗 。 同 时 ， 由 于 我 们 对 广告 位 合约 直接 透 过 前 
端 投放 ， 在 这 部 分 流量 上 避免 了 访问 服务 疹 市 来 的 延迟 ， 因 此 CPT 广 后 
的 效果 可 以 得 到 较 好 的 保证 。 实 际 的 排 期 和 动态 广告 混合 系统 ， 由 于 
有 轮 播 模 式 的 存在 和 地 域 定 向 的 需求 ,会 比 上 述 的 逻辑 更 加 复 洒 一 
些 ， 不 过 没有 原理 上 的 差异 。 

虽然 本 书 的 重点 是 讨论 各 种 基于 受众 定 问 的 动态 广告 系统 ， 但 是 
读者 需要 了 解 ， 往 往 上 面 这 样 的 排 期 调度 系统 是 媒体 投放 展示 广告 的 
基础 系统 ， 而 各 种 动态 广告 产品 的 接 入 则 统一 在 步骤 2 中 进行 。 


11.2 担保 式 投 送 系 统 


与 展示 量 合约 对 应 的 广告 系统 称 为 担保 式 投 送 (Guaranteed 
Delivery, GD) 系统 。 在 展示 量 合约 这 样 的 交易 结构 中 ， 只 要 合约 都 
被 满足 ， 系 统 的 收益 束 是 一 定 的 ， 于 是 公式 2.2 中 的 优化 目标 变 成 了 般 
数 。 不 过 ， 这 一 系统 多 了 合约 寓 来 的 一 组 量 的 约束 条 件 ， 因 此 变 成 了 
一 个 市 约束 优化 问题 。 关 于 此 问题 的 具体 插 述 和 解法 将 放 在 后 面 的 在 
线 分 配 部 分 中 介绍 。 有 了 时， 展示 量 合约 还 会 约定 投放 量 未 达到 时 的 惩 
如， 在 这 种 情况 下 ， 目 标 不 再 是 一 个 前 数 ， 不 过 这 仍然 可 以 用 在 线 分 
配 的 一 般 框架 来 解决 。 

担保 式 投 送 系 统 的 整体 架构 如 图 11-2 所 示 。 在 此 系统 中 ， 在 线 投放 
引擎 接收 用 户 触 发 的 广告 请 求 ， 根 据 用 户 标 签 和 上 下 文 标签 找 到 可 以 
亚 配 的 广告 合约 ， 然 后 由 在 线 分 配 模块 决定 本 次 展示 投放 哪个 广告 。 
完成 决策 后 ， 将 展示 和 点 击 日 志 送 入 数据 高 速 公 路 。 这 些 日 志 一 方面 
进入 离线 分 布 式 计算 平台 以 后 ， 通 过 日 志 的 整理 ， 完 成 合约 的 计划 ， 
即 确定 在 线 分 配 算 法 的 参数 ， 再 将 分 配方 案 送 给 线 上 投放 机 使 用 ， 男 
一 方面 ,日 志 也 送 到 流 计算 平台 ， 在 有 反 作 浆 和 计价 的 基础 上 ， 再 对 索 
引进 行 快速 调整 。 可 以 看 出 ， 这 一 系统 的 核心 技术 是 在 线 分 配 的 算法 
策略 与 执行 过 程 。 

由 于 担保 式 投 送 需要 用 到 人 和 群 标签 或 上 下 文 标签 ， 因 此 在 广告 检 
索 的 过 程 中 也 需要 用 到 用 户 标签 (user attribute) 和 页 面 标签 (page 
attribute) 这 两 个 标签 库 ， 由 于 标签 的 生成 过 程 与 担保 式 投 送 本 身 的 关 
系 不 大 ， 我 们 将 放 在 后 面 受 众 定 向 技术 部 分 集中 讨论 。 


担保 式 投 送 需 要 用 到 的 核心 技术 ， 最 重要 的 就 是 在 线 分 配 。 关 于 
在 线 分 配 ， 我 们 将 在 下 面 用 专门 的 章节 介绍 。 除 了 在 线 分 配 以 外 ， 担 
傈 式 投 送 还 有 男 外 两 项 主要 的 文 持 技 术 : 流量 预测 和 频次 控制 。 
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图 11-2 担保 式 投 送 广 告 系统 架构 示意 
11.2.1 流量 预测 


在 展示 量 合约 广告 中 ， 流 量 预测 "是 一 项 支持 技术 ， 它 对 于 在 线 分 
配 的 效果 至 天 重要 。 除 此 以 外 ， 在 广告 网 络 中 ， 一 般 来 说 也 需要 根据 
定 同 条 件 和 出 价 估计 广告 展示 量 ， 以 辅助 广告 主 进行 决策 。 因 此 ， 流 
量 预测 是 一 项 在 计算 广告 中 广汉 使 用 的 技术 。 

流量 预测 的 问题 可 以 描述 为 : 给 定 一 组 受众 标签 组 合 以 及 一 个 
eCPM 的 国 值 ， 合 算 在 将 来 某 个 时 间 段 内 符合 这 些 受众 标签 组 合 的 条 
件 、 并 且 市 场 价 在 该 eCPM 病 值 以 下 的 广告 展示 量 。 这 里 的 eCPM UTR 
主要 十 用 于 竞价 广告 系统 中 ， 目 的 是 了 解 在 某 出 价 水 平 下 的 流量 情 
形 。 对 于 展示 量 合约 式 广 告 来 说 ， 这 个 国 值 是 不 需要 的 ， 或 者 为 了 工 
程 上 一 致 ， 将 该 国 值 设 为 一 个 很 大 的 利 数 。 

流量 预测 一 般 的 方法 其 实 并 不 是 预测 ， 而 是 根据 历史 数据 的 统计 
来 拟 合 未 来 的 流量 。 当 然 ， 也 可 以 引入 时 间 序 列 分 析 的 方法 ， 从 流量 
在 时 间 轴 上 的 规律 预测 未 来 某 个 时 间 段 的 流量 ， 这 主要 适用 于 需要 短 
时 预测 的 场景 ， 对 厂 告 业务 来 说 并 不 十 分 必要 。 因 此 ， 此 市 将 主要 介 
绍 根据 历史 数据 统计 的 方法 。 用 统计 的 方法 解决 流量 预测 问题 ， 工 程 
上 的 主要 挑战 在 于 ， 给 定 的 受众 标 侈 组 合 可 能 性 非常 多 ， 不 可 能 将 所 
有 这 些 组 合 部 预先 做 好 统计 。 可 行 的 思路 钙 将 其 视 为 一 个 反问 检索 的 
问题 : 在 一 般 的 广告 检索 问题 中 ， 索 引 的 文档 是 广告 a， 而 查询 是 
(u, c) 上 的 标签 ， 而 在 流量 预测 问题 中 ， 索 引 的 文档 由 广告 a 变 成 了 
每 次 展示 ， 而 文档 的 内 容 即 是 这 次 展示 上 的 u, c) 上 的 标签 ， 而 查 


WFR (u, c) 上 的 标签 变 成 了 广告 设置 的 受众 条 件 。 可 以 看 出 ， 这 两 
个 回 题 是 对 偶 的 ， 可 以 用 类 似 的 技术 方案 来 解决 。 

对 比 广告 检索 问题 ， 流 量 预测 的 检索 问题 要 简单 一 些 : B, 
(u, c) 供给 节点 不 存在 布尔 表达 式 描述 ， 而 是 简单 的 特征 集合 ; A 
外 ， 流 量 预测 的 大 多 数 应 用 场景 对 实时 性 的 要 求 都 不 算 高 ， 例 如 ， 在 
竞价 系统 辅助 决策 时 ， 秘 级 的 啊 应 完全 可 以 满足 要 求 ， 这 比 起 线 上 广 
告 检 索 襄 秒 级 的 要 求 显 然 要 低 得 多 。 用 反 辐 检索 的 方案 来 进行 流量 预 
测 ， 主 要 包括 以 下 几 个 步 又。 

(1) 准备 文档 。 将 历史 流量 中 ， u, cO 上 的 所 有 标签 的 展示 合 
并 为 一 个 供给 市 点 1， 并 统计 其 总 流量 s 以 及 这 部 分 流量 上 eCPM 的 直方 
图 hist。 这 样 的 每 个 供给 市 点 作为 流量 预测 反 向 索引 的 一 篇 文档 。 

(2) 建立 索引 。 对 上 一 步 生 成 的 每 个 供给 节点 建立 倒 排 索引 ， 文 
档 的 terms 即 为 此 供给 节点 (u, c) 上 的 所 有 标签 。 同 时 ， 在 索引 的 正 
排 表 部 分 记录 s, 和 hist ° 

(3) 查询 结果 。 对 一 条 输入 的 广告 a， 将 其 限定 的 标签 条 件 作为 
查询 ， 得 到 所 有 符合 条 件 的 供给 节点 的 集合 。 

(4) 估算 流量 。 人 遍历 上 一 步 得 到 的 每 个 供给 节点 ， 对 于 某 个 供给 
节点 1， 首先 计算 其 与 该 广告 a 的 eCPM 即 r (a, u, c) =p (a, u, 
c) bid,， 然 后 根据 相应 的 eCPM 直方 图 hist 计算 a 能 获得 的 流量 。 这 
样 ， 就 可 以 估算 出 a 在 出 价 bid 情形 下 近似 能 获得 的 流量 。 


基于 反 回 索引 的 流量 预测 方法 如 图 11-3 所 示 。 实 际 操 作 过 程 中 ， 由 

于 历史 广告 投放 日 志 可 能 流量 非常 大 ， 将 所 有 的 供给 节点 都 建立 索引 

规模 上 是 无 法 承受 的 。 当 然 ， 实 际 上 我 们 也 并 不 需要 这 样 做 ， 在 流量 

预测 误差 允许 的 范围 内 ， 我 们 可 以 在 上 面 的 第 1 步 和 第 2 步 之 间 加 一 
个 采样 的 过 程 ， 将 索引 中 的 供给 市 点 的 数量 控制 在 合理 的 规模 。 
供给 节点 标签 展示 量 
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FARII CP MEHTA 
图 11-3 基于 反 向 索引 的 流量 预测 示意 
11.2.2 频次 控制 


频次 ， 指 的 是 某 个 用 户 在 一 段 时 间 内 看 到 某 个 或 某 组 广告 的 上 曝光 
次 数 。 关 于 频次 对 广告 效果 的 影响 ，Herbert E.Krugman 博士 在 1972 年 
提出 了 著名 的 “三 打 理 论 ”(three hit theory) ': 第 一 次 ， 刺 激 消 费 者 试 
着 了 解 信息 ， 去 问 “ 这 个 广告 是 什么 ? Cu 第 二 次 ,刺激 消费 者 去 评 


E, RUS ENRETA? ”我 曾经 看 过 这 个 广告 吗 ? ” 第 三 次 ， 消 
费 痢 接 触 到 广告 时 会 回忆 并 开始 逃离 广告 。 三 次 足以 对 消费 着 产生 作 
用 。 这 个 理论 对 广告 投放 的 效果 有 重要 的 指导 意义 ， 但 是 主要 适用 于 
传统 广告 ,并 且 是 假设 用 户 已 经 顺利 通过 了 天 注 阶 段 。 对 于 互联 网 广 
告 ， 技 术 手 段 能 够 记录 到 的 展示 ， 在 广告 位 置 震 异 的 影响 下 ， 离 有 效 
展示 有 相当 大 的 距离 ， 因 此 无 法 直接 套用 三 打 理 论 。 不 过 ， 一般 来 
说 ， 随 着 某 个 用 户 看 到 同一 个 创意 频次 的 上 升 ， 点 击 率 呈 下 降 的 趋势 
这 一 点 是 可 以 被 验证 的 。 因 此 ， 在 按照 CPM 采 天 流量 时 ， 广 告 主 有 时 
会 要 求 根 据 频 次 控制 某 个 用 户 接触 到 某 创意 的 次 数 ， 以 达到 提高 性 价 
比 的 目的 。 特 别 是 在 视频 广告 这 样 有 效 曝光 程度 较 高 的 广告 产品 中 ， 
频次 控制 (frequency capping) 的 意义 和 重要 性 尤为 显著 。 

图 11-4 给 出 了 某 广告 产品 中 实际 的 频次 与 广告 效果 (eCPM) 的 关 
系 曲线 。 将 这 一 量化 结 末 与 传统 广告 的 频次 理论 相对 比 ， 会 有 一 些 新 
的 发 现 ， 首 和 完 ， 广 告 效 果 随 着 频次 的 上 升 呈 单 调 的 下 降 趋势 ， 而 并 非 
在 三 次 时 达到 最 佳 ， 其 次 ， 频 次 较 高 的 广告 展示 效果 很 差 ， 因 此 ， 没 
有 足够 的 广告 主 数量 ， 整 体 的 广告 效果 会 受到 相当 大 的 限制 。 而 这 些 
特点 在 竞价 广告 产品 中 更 加 容易 利用 ， 我 们 将 在 第 13 草 中 再 讨论 。 


eCPM(RMB) 


频次 
图 11-4 频次 与 广告 效 末 的 天 系 示例 


从 计算 的 角度 来 看 ， 频 次 是 使 得 公式 2.2 中 的 可 分 性 假设 不 成 立 的 
最 主要 影响 因素 。 而 将 频次 作为 一 个 可 控制 的 定向 条 件 引 入 广告 系统 
后 ， 这 个 问题 虽 不 能 被 彻底 解决 ， 却 是 大 大 地 缓解 了 。 频 次 控制 的 需 


求 可 以 描述 成 ， 控 制 各 (a, u 组 合 在 一 定 的 时 间 周 期 内 的 展示 量 。 
应 该 说 ， 频 次 的 明确 要 求 主要 存在 于 展示 量 合约 广告 中 ， 而 在 CPC 结 
算 的 竞价 广告 中 ， 可 以 将 频次 作为 CTR 预 估 的 特征 之 一 ， 从 而 隐 式 地 
对 广告 的 重复 展示 进行 控制 。 

频次 控制 有 客户 端 和 服务 郁 端 两 种 解决 方案 。 客 户 站 的 方案 束 是 
把 某 个 用 户 对 菜 个 广告 创意 的 频次 值 记录 在 浏览 器 cookie 中 ， 投 放 决 策 
时 再 把 这 个 值 传 给 服务 器 来 决策 创意 。 这 一 方 采 的 好 处 是 简单 易 行 ， 
而 且 服 务 成 本 低 。 缺 点 是 扩展 性 不 好 ， 当 同时 跟 踩 多 个 广告 的 频次 
时 ，cookie 可 能 会 变 得 很 重 ， 从 而 影响 广告 响应 时 间 。 当 然 ， 在 移动 应 
用 广告 中 利用 SDK 做 前 问 投 放 控制 的 场景 ， 客 户 闻 的 方案 是 非常 好 的 
选择 。 服 务 器 端的 方案 是 在 后 台 设 置 一 个 专门 用 于 频次 记录 和 更 新 的 
缓存 ， 当 广告 请 求 到 来 时 ， 在 缓存 中 查询 候选 广告 的 频次 ， 并 根据 最 
后 实际 投放 的 广告 更 新 频次 。 

频次 控制 用 到 的 缓存 ， 同 时 存在 高 并 发 读 和 高 并 发 写 的 要 求 。 而 
且 随 着 频次 控制 粒度 要 求 的 不 同 ， 需 要 记录 的 频次 变量 数目 也 可 能 很 
大 。 比 如 在 创意 级 别 控制 频次 就 比 在 广告 主 级 别 控制 频次 需要 更 多 的 
缓存 容量 。 不 过 考虑 到 问题 的 实际 情况 ， 这 一 缓存 实际 上 可 以 有 很 轻 
量 级 的 方案 。 对 我 们 有 利 的 问题 特性 主要 有 以 下 两 点 。 

(1) 频次 存储 的 规模 是 有 上 界 的 。 如 果 我 们 在 某 个 时 间 周 期 内 控 

制 频 次 ， 那 么 上 述 的 频次 变量 总 数 一 定 不 会 超过 这 个 时 间 周 期 内 的 展 


示 总 数 ， 这 会 远 远 小 于 所 有 可 能 的 (a, w 的 组 合 数量 。 因 此 ， 缓 存 
实际 的 存储 规模 没有 我 们 想象 的 那么 大 。 

(2) 当 用 (a, u) 的 组 合生 成 缓存 中 对 应 的 键 时 ， 实 际 上 并 不 需 
要 处 理 冲突 ， 因 为 从 业务 角度 来 说 ， 对 极 少 比例 的 冲突 组 合 上 的 频次 
控制 不 准 是 可 以 接受 的 。 因 此 ， 我 们 用 简单 的 MD5 之 类 的 获 列 方法 生 
成 键 就 可 以 ， 这 会 比 哈 希 表 的 方案 要 人 简便 高 效 一 些 。 这 实际 上 也 反映 
了 广告 系统 投放 过 程 弱 一 致 的 设计 原则 。 

由 于 频次 控制 有 上 述 这 些 特 点 ， 并 且 存 在 高 并 发 读 写 的 要 求 ， 大 
多 数 通 用 型 的 NoSQL 存 储 方案 并 不 能 很 好 地 用 于 频次 控制 的 缓存 服 
务 ， 因 此 很 可 能 需要 自行 实现 一 个 非常 轻 量 级 的 内 存 (key, value) 7j 
案 来 满足 需求 。 而 且 ， 了 就 大 多 数 广告 产品 的 流量 规模 来 看 ， 此 缓存 完 
全 可 以 放 在 广告 投放 机 本 机 的 内 存 中 。 


线 分 配 


本 章 中 我 们 讨论 的 重点 是 展示 量 合约 广告 以 及 相应 的 担保 式 投 送 
系统 。 展 示 量 合约 广告 的 优化 问题 与 公式 2.2 表达 的 一 般 问 题 ， 主 要 区 
别 在 于 合约 量 的 要 求 引 入 了 一 些 约束 条 件 ， 这 引出 了 在 线 分 配 问题 。 

在 线 分 配 问 题 指 的 是 在 通过 对 每 一 次 广告 展示 进行 实时 在 线 决 
岳 ， 从 而 达到 在 满足 某 些 量 的 约束 的 前 提 下 ， 优 化 广告 产品 整体 收益 
的 过 程 。 很 容易 理解 ， 此 问题 计算 上 最 困难 的 地 方 在 于 “在 线 ”"， 也 就 


征 在 信息 疝 不 全 面 的 时 候 作出 决策 ， 而 系统 上 最 困难 的 地 方 在 于 分 配 
策略 需要 是 弱 状 态 的 ， 同 时 各 广告 投放 机 之 间 耦 合 程度 也 要 尽量 低 。 

在 线 分 配 是 计算 广告 中 比较 关键 的 算法 框架 之 一 ， 它 适用 于 许多 
量 约束 下 的 效果 优化 问题 ， 而 这 实际 上 是 广告 业务 非常 本 质 的 需求 。 
由 于 在 线 分 配 问 题 的 重要 性 超越 了 担保 式 投 送 本 映 ， 我 们 先 来 介绍 此 
问题 的 应 用 场景 与 算法 。 


11.3.1 TE£ IR 


我 们 的 出 发 点 仍然 是 公式 2.2 的 计算 广告 核心 问题 。 此 问题 优化 的 
是 一 组 广告 展示 上 的 利润 ， 而 在 线 分 配 问 题 进一步 引入 了 量 的 约束 。 
为 了 讨论 方便 ， 需 要 先 对 公式 2.2 做 一 些 变 化 ， 得 到 适合 于 描述 在 线 分 
配 问题 的 市 约束 优化 问题 。 

1. 供 给 与 需求 二 部 图 

以 担保 式 投 送 为 代表 ， 可 以 看 出 在 线 分 配 问 题 有 两 个 主要 的 挑 
战 : 一 是 要 在 量 的 约束 下 优化 效 末 ;二 是 要 实时 对 每 一 次 展示 作出 决 
策 。 直 接 在 这 两 个 要 求 下 优化 ， 会 使 得 求解 过 程 相当 困难 。 因 此 ， 在 
在 线 分 配 问 题 中 ， 一 般 将 此 问题 简化 为 一 个 二 部 图 (bipartite graph) Ut 
配 的 问题 。 这 里 的 “二 部 ” 指 的 古代 表 厂 告 库存 的 供给 证 后 (集合 记 为 
I， 其 中 某 个 节点 代表 的 是 所 有 标签 都 相同 的 流量 库存 ) 和 代表 广告 合 
约 的 需求 节点 (集合 记 为 A) 。 

供给 节点 、 需 求 节点 和 在 线 分 配 二 部 图 的 示例 如 图 11-5 所 示 。 在 
这 个 示例 中 ， 下 方 的 6 个 市 点 为 供给 节点 ， 而 上 面 的 三 个 节点 为 需求 廊 


点 。 如 果 某 个 供给 节点 的 受众 标签 能 够 满足 某 个 需求 节点 的 要 求 ， 就 
在 相应 的 两 个 节点 间 建 立 一 条 连接 边 。 我 们 把 这 个 二 部 图 记 为 G= 
(UA, E) |, FEKIS A 之 间 边 的 集合 ， 并 用 TT (a 表示 所 有 与 
需求 节点 aEA 相 邻 的 供给 节点 的 集合 ， 而 T (i) 表示 所 有 与 供给 节点 
IEI 相 邻 的 需求 节点 的 集合 。 我 们 的 任务 就 是 求解 由 iEI 到 aEA 的 分 配 
比例 ， 使 得 满足 供给 方 和 需求 方 的 约束 的 同时 ， 某 个 与 广告 效果 相关 
的 目标 函数 达到 最 优 。 
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图 11-5 在 线 分 配 中 的 二 部 图 匹配 问题 示意 
二 部 图 中 的 供给 节点 有 时 为 一 组 标签 约束 下 的 流量 集合 ， 在 这 种 
情况 下 ， 用 s 表示 供给 蔬 点 i 的 总 流量 ， 有 时 也 会 用 一 个 节点 代表 一 次 
展示 ， 这 适用 于 不 假设 对 流量 有 预测 能 力 的 场景 或 者 需要 精细 区 分 每 
次 展示 的 场景 下 。 
请 大 家 注意 ， 与 2.2 的 计算 广告 一 般 问 题 相 比 ， 这 样 的 二 部 图 结构 
实际 上 假设 了 在 同样 一 组 供给 市 点 和 需求 方 点 之 间 发 生 的 广告 展示 ， 


其 目标 函数 或 回报 rz 是 没有 差别 的 。 这 虽然 不 够 准确 ， 但 却 是 更 直接 地 
研究 在 线 分 配 算法 的 一 种 合理 近似 。 在 这 一 近似 下 ,，r 由 (a, u, c) 组 
合 的 画 数 变 成 了 供给 节点 PORT ana, KER re KTA 
起 见 ， 从 分 配 问题 的 物理 意义 出 发 ， 往 往 还 假设 整体 的 收益 或 目标 
函数 是 可 分 的 中 ， 这 一 目标 函数 表示 为 如 下 的 形式 : 

(8,2) = SiTiaTia (11.1) 

其 中 s 为 供给 节点 的 总 供给 量 ， 而 x={X 中 的 每 个 元 素 表示 s, 
分 配给 合约 a 的 比例 ， 这 就 古 在 线 分 配 问 题 求解 的 变 

一 在 线 分 配 问 题 的 目标 函数 ， 直 观 上 看 与 2.2 的 一 般 广 告 问题 目 

标 大 有 不 同 ， 不 过 这 实际 上 是 通过 二 部 图 假设 简化 后 得 到 的 表示 。 男 
外 ， 在 这 种 表达 中 ， 供 给 节点 的 数目 会 随 着 定向 条 件 的 增加 而 呈 几 何 
级 数 上 升 ， 也 就 会 使 得 对 应 的 分 配 问 题 变 得 过 于 复杂 而 无 法 有 效 求 
解 。 下 面 我 们 来 看 此 优化 问题 有 哪些 约束 。 

2. 需 求 约束 与 供给 约束 

在 线 分 配 问 题 的 第 一 个 约束 条 件 是 分 配给 某 广告 合约 a 的 收益 要 至 
少 等 于 其 约定 的 量 4， 这 个 约束 称 为 需求 约束 (demand constraint) : 


E 


Y 


pem — ia: iTia € da, Va E A (11.2) 

其 中 q 为 将 供给 节点 i 连接 到 需求 节点 a 的 单位 流量 惩罚 ， 其 具 
体 意义 将 在 后 面 举例 说 明 。 简 单 起 见 ， 一 般 都 假设 这 一 需求 约束 是 线 
性 的 ， 实 际 上 这 也 已 经 能 满足 所 有 常见 场景 中 的 需求 。 


实际 产品 中 常见 的 需求 约束 有 两 类 : 一 类 是 预算 、 服 务 成 本 等 的 
上 限 要 求 ; 男 一 类 是 合约 量 的 下 限 要 求 。 在 后 一 种 情形 下 ，gq, AM 
数 ， 需 求 约束 实际 上 描述 的 是 一 个 收益 项 的 下 界 。 

在 线 分 配 问 题 的 另 一 个 约束 条 件 是 每 个 供给 节点 被 分 配 出 去 的 量 
能 多 于 其 总 流量 ， 这 个 约束 称 为 供给 约束 (supply constraint) ， 其 意 
义 很 容易 理解 。 供 给 约束 可 以 表示 成 下 面 的 形式 ; 
opm z;,€LVicl (11.3) 

3. 问 题 框 架 
根据 上 面 的 讨论 ， 从 公式 2.2 定 义 的 计算 广告 目标 出 发 ， 引 入 供给 
约束 与 需求 约束 ， 得 到 下 面 的 在 线 分 配 优化 问题 框架 表示 : 


max 3 Sitios 
(,a)€E Proud 

s.t. ys ti, € L. Wiel 
acT'(i) aS 4; 


Qe Sio iaQia < Us Va € A 
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(11.4) 


En 2 V(i,a) € E 

除了 供给 约束 和 需求 约束 ， 上 式 中 还 有 第 三 个 约束 ， 它 用 以 保证 
分 配 变 量 非 负 。 公 式 11.4 是 一 个 比较 一 般 性 的 数学 表达 ， 不 仅仅 适用 于 
GD 问题 ， 也 适用 于 其 他 量 约束 下 的 在 线 分 配 问 题 。 有 关 它 的 一 些 算 法 


和 结论 也 不 仅仅 用 于 合约 式 广告 系统 ， 在 后 面 介 绍 的 竞价 广告 系统 或 
广告 交易 市 场 中 也 有 着 广 泛 的 应 用 。 

如 果 可 以 离线 对 公式 11.4 进行 决策 ， 那 么 这 是 一 个 一 般 的 带 线 性 
约束 的 优化 问题 。 然 而 在 广告 投放 实际 环境 中 ， 不 可 能 达到 全 局 最 
优 ， 而 是 必须 对 每 次 广告 展示 马上 作出 决策 ， 这 融 要 求 设计 一 种 比较 
聪明 的 策略 ， 使 得 整体 流量 情况 尚 不 明天 时， 仍然 可 以 相对 合理 地 作 
出 决策 ， 而 最 终 目 的 是 全 部 流量 上 的 分 配 结 果 与 离线 最 优化 的 结 末 尽 
量 接近 。 


11.3.2 Eż IR 


在 线 分 配 技术 并 不 仅仅 适用 于 GD 问题 ， 其 他 典型 的 问题 还 有 
AdWords 问题 、 展 示 广 告 问题 、 最 大 代表 性 分 配 (Maximal 
Representative Allocation, MRA) 外 问题 以 及 广告 交易 平台 中 的 询 价 优 
化 问题 等 。 在 此 举例 介绍 GD 问题 和 AdWords 问 题 的 具体 表达 ， 其 他 问 
题 还 会 在 本 书 的 后 面 遇 到 。 

1.GD 问题 

在 线 分 配 的 最 典型 应 用 就 是 GD (担保 式 投 送 ) 问题 。 在 此 主要 考 
Eik CPM 结 算 的 市 场 。 在 GD 合约 的 情形 下 ， 由 于 按 CPM 和 售卖 广告 在 
所 有 合约 都 满足 时 ， 如 果 不 考虑 合约 a 未 完成 的 惩罚 ， 收 益 是 一 定 的 常 
数 。 那 么 GD 的 优化 问题 可 以 写成 : 


max C 
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tin 2 0, V(i,a) c E 
可 以 看 出 ，GD 问题 的 优化 目标 主要 在 于 更 好 地 满足 所 有 合约 的 要 
求 ， 而 不 是 优化 ecCPM。 有 时 ，GD 合 约 在 未 达成 (under delivery) 时 
会 有 相应 的 征召 ， 在 这 种 情形 下 ， 目 标 函 数 就 不 是 常数 了 ， 可 以 引入 
惩罚 项 来 改写 上 面 的 问题 ， 使 其 仍然 在 在 线 分 配 的 框 染 内 ， 在 此 不 详 
细 描 述 。 
GD 问题 的 两 个 约束 都 非常 容易 理解 : 供给 约束 的 含义 是 每 个 供给 
点 分 配给 所 有 需求 节点 的 流量 比例 之 和 不 超过 1; 需求 约束 的 含义 是 
个 需求 节点 被 分 配 到 的 流量 总 和 应 该 大 于 等 于 对 应 合约 的 展示 量 


& 十 


2.AdWords 问题 

Adwords 问 题 ， 也 被 称 为 有 预算 约束 的 出 价 (budgeted bidder) 问 
题 ， 讨 论 的 是 在 CPC 结 算 的 竞价 广告 环境 下 ， 给 定 各 个 广告 主 的 预 
算 ， 整 体 化 市 场 营 收 的 问题 。 在 这 种 情形 下 ， 公 式 11.5 中 的 目标 范 数 和 
需求 约束 都 有 所 变化 ， 其 对 应 的 在 线 分 配 问题 体现 为 如 下 的 形式 : 


max ) BL, 
(i,a)€ E lia?ilia 


B Via <1, ic] 
5 Dum bia S s Vi € 
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Tia 2 0, V(i,a) c E 
为 了 便于 理解 ， 可 以 把 这 里 的 供给 节点 i 具体 想象 成 搜索 广告 中 的 
一 个 天 键 词 。 于 是 ，q 代表 的 是 将 关键 词 i 的 一 次 点 击 分 配给 广告 a 的 期 
望 收益 ， 即 广告 a 对 天 键 词 :的 出 价 ";，s 为 天 键 词 i 的 总 点 击 量 ， 而 x 为 
关键 词 i 分 配给 广告 a 的 流量 比例 。AdWords 问 题 的 优化 目标 是 整个 市 
场 的 收入 最 大 化 ， 而 需求 约束 的 含义 是 每 个 广告 主 的 花费 应 该 小 于 该 
广告 主 的 预算 。 
研究 AdWords 问 题 的 目的 是 为 了 探讨 在 广告 主 有 预算 上 限 的 情形 
下 ， 是 否 可 以 通过 全 局 的 分 配 调 整 影响 整个 市 场 的 收入 。 虽 然 对 这 一 
问题 的 实际 意义 和 效果 ， 工 业界 存在 着 不 同 的 看 法 : 在 自助 式 投 放 
中 ,广告 主 有 时 会 移 预 设 较 少 的 预算 ， 并 在 预算 将 伦 完 时 判断 是 否 要 
奶 加 。 因 此 ， 在 系统 中 看 到 的 预算 并 不 是 一 个 强 约束 。 但 是 ， 这 样 的 
思考 方式 以 及 在 线 分 配对 于 各 种 量 约束 下 优化 问题 的 框架 意义 是 值得 
体会 的 。 


11.3.3 性 名 


如 末 不 对 未 来 的 流量 分 布 做 假设 和 预测 ， 那 么 在 线 分 配 的 效率 上 
限 如 何 ， 什 么 样 的 策略 更 加 合理 呢 ? 虽 然 这 样 极端 情形 的 讨论 对 实用 
系统 的 帮助 有 限 ， 但 这 一 极限 情形 的 研究 却 对 我 们 理解 问题 的 本 质 特 
点 和 算法 方向 有 指导 意义 。 

极限 性 能 研究 的 指标 主要 是 某 一 在 线 分 配 策 上 略 的 有 效 性 。 所 谓 有 
效 性 可 以 描述 如 下 : 如 果 能 够 完全 确 知 所 有 的 流量 分 布 情况 ， 那 么 可 
以 根据 全 局 的 信息 求 得 一 个 分 配 的 最 优 解 ， 但 是 由 于 分 配 是 在 线 执 
行 ， 最 优 解 并 不 一 定 能 达到 ， 如 果 某 种 在 线 分 配 策略 在 最 差 情形 下 能 
够 达到 上 述 最 优 解 目标 函数 的 + 倍 ， 那 么 我 们 束 说 这 一 分 配方 案 是 +- 
competitive 的 。 显 然 ， 这 里 的 1 十 一 个 [0，1] 内 的 数 ， 也 就 古 该 分 配方 
案 有 效 性 的 度量 。 

公式 11.4 是 一 个 典型 的 带 约束 优化 问题 ， 根 据 第 10 章 介绍 的 最 优化 
知识 ， 可 以 应 用 拉 格 明日 乘 子 法 来 分 析 这 一 问题 。 公 式 11.4 的 拉 格 明日 
算 符 可 以 表达 为 : 


) ruit t) 0 ) Silia — ôi +) À y (initia — d - ) Mabiti (11.7) 


(a) i acri) 0 icT'(a) (ia) 
不 进行 预测 ， 把 每 次 展示 当 作 一 个 供给 节点 ， 则 有 s=1， 于 是 上 式 
的 对 偶 问 题 为 : 


min pP daba + 3 a 
acA icI 


st. Bata; 2 fia (11.8) 


Iris, 95,0 2 0| 

原 问 题 的 每 个 约束 条 件 对 应 着 一 个 对 偶 变量 。 在 参考 文献 [31] 中 ，， 
利用 这 些 对 偶 变 量 ， 作 者 给 出 了 在 Free Disposal" pitt F, ERSA 
一 种 优化 方案 框架 。 该 方案 有 如 下 的 几 个 步骤 。 

(1) 初始 化 每 个 需求 约束 的 对 侦 变量 B.~0。 

(2) 当 一 次 展示 i 到 达 时 ， 令 a -arg maxr-B 取 得 最 大 值 的 广告 
合约 a ( 即 分 配给 收益 最 大 的 合约 ， 如 果 该 值 对 所 有 的 广告 都 为 负 ， 则 
所 有 合约 都 不 需要 分 配 ) 。 

(3) 令 x0=1， 如 果 a 已 经 被 分 配 了 d0 次 展示 ， 令 ji 为 其 中 最 小 
的 ， 并 将 x0.0 设置 为 0。 

(4) 在 对 偶 问题 中 ， 令 a=r.0-B0 ， 并 通过 一 定 的 更 新 规则 来 更 新 
B.0。 不 同 的 更 新 规则 对 应 了 不 同 的 分 配 算法 ， 也 相应 地 会 导致 不 同 的 
分 配 性 能 。 

这 个 过 程 的 关键 在 于 两 点 : 一 是 第 2 步 实际 上 是 把 展示 分 配给 最 难 
满足 的 一 个 合约 ;二 是 第 A 步 如 何 更 新 B0 ， 即 如 何 重 新 估计 需求 合约 
的 满足 难度 。 参 考 文献 [31] 中 对 几 种 典型 的 B0 的 更 新 策略 进行 了 讨 

， 并 且 给 出 了 一 种 有 效 性 为 (1-1/e) -competitive 的 分 配方 案 ， 实 际 
上 ， 可 以 证 明 这 是 在 线 分 配 问题 可 以 达到 的 有 效 性 的 上 界 。 表 11-1 对 


比 了 参考 文献 [31] 中 讨论 的 几 种 在 线 分 配 策略 。 在 几 种 B0 更 新 策略 
中 ， 指 效 加 权 的 极限 性 能 最 佳 ， 而 且 1-1l/e 补 证明 是 所 有 分 配 算 法 理论 
上 能 达到 的 最 好 的 极限 性 能 。 

表 11-1 者 二 在线 分 配 策略 的 对 比 


Ba 是 分 配给 a 的 前 da 个 高 权重 展示 中 最 低 的 权重 ， UN a ik 

SC MICI e HD BUR 

Ba 是 分 配给 a 的 十 da SSC zip EI EQUUS 

UES a 的 展示 少 十 da 个 ，B ERREUR da 的 比 

Ba 是 分 配给 a 的 前 da 个 高 权重 展示 的 权重 的 指数 加 权 ， 即 
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直观 地 理解 ，B, 可 以 对 应 于 将 一 个 新 的 展示 替换 原 有 已 分 配给 a 的 
展示 时 ， 被 车 换 挥 的 收益 部 分 。 显 然 ， 当 合约 a 被 分 配 展示 少 于 d, 时 ， 
B, 应 该 为 0， 而 上 面 的 研究 告诉 我 们 ， 按 照 已 分 配 的 权重 进行 指数 加 权 
会 有 比较 好 的 极限 性 能 。 在 实际 的 工程 系统 中 ， 不 可 能 不 利用 历史 流 
量 数据 来 进行 在 线 分 配 。 然 而 ， 上 面 的 研究 对 于 深入 理解 在 线 分 配 的 


合理 策略 会 有 很 大 的 帮助 。 
11.3.4 实用 优化 算法 


假定 未 来 一 段 时 间 内 需要 投放 的 合约 是 已 知 的 ， 如 果 广 告 流量 的 
分 布 在 各 个 循环 周期 内 是 近似 一 致 的 ， 那 么 在 线 分 配 的 问题 就 可 以 在 
流量 预测 的 指导 下 进行 ， 这 是 大 多 数 在 线 分 配 实用 工程 方法 的 基本 出 

1. 直 接 求解 的 原始 分 配方 案 

在 实际 的 工程 系统 中 ， 假 定 流 量 的 分 布 是 平稳 的 ， 我 们 会 利用 历 
史 流 量 数据 来 拟 合 未 来 流量 s， 把 在 线 分 配 转化 成 离线 问题 ， 离 线 对 公 
XX 11.4 进行 决策 。 这 是 一 个 一 般 的 带 线性 约束 的 优化 问题 ， 当 优化 目 
标 为 线性 函数 或 二 次 函数 时 ， 是 一 个 标准 的 线性 规划 (linear 
programming) 或 二 次 规划 (quadratic programming) 问题 ， 可 以 采用 相 
应 的 优化 工具 直接 求解 该 问题 。 当 所 求解 的 问题 规模 较 小 时 ， 比 如 定 
回 标签 很 少 、 广 告 主 也 较 少 时 ， 求 解 过 程 也 很 向 单 。 直 接 求 解 的 Matlab 
代码 如 下 所 示 。 
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在 大 型 的 合约 广告 系统 中 ， 由 于 定 疝 条 件 的 复杂 性 ， 供 给 市 后 的 
数目 会 随 着 定向 条 件 的 增加 而 呈 几 何 级 数 上 升 ， 需 求 节 点数 也 会 达到 
数 干 个 ， 边 民 | 的 数目 会 在 百 万 级 以 上 ， 这 吏 使 得 对 应 的 分 配 问 题 变 得 
过 于 复杂 而 无 法 直接 有 效 求解 。 我 们 令 n 为 变量 的 个 数 (正比 于 供需 二 
部 图 中 边 的 数目 ED ， 求 解 线性 规划 问题 的 经 典 算法 如 内 点 法 (时 间 
复杂 度 为 n 的 多 项 式 级 别 ) 和 单纯 形 法 (时 间 复 杂 度 为 O an) ) 
在 小 时 级 延迟 的 定期 更 新 求解 是 几乎 不 可 能 的 。 男 外 ， 这 样 直接 求 得 
的 解 参 数 正比 于 |E| 的 数量 ， 规 模 有 可 能 过 于 上 庞大， 在 线 上 投放 时 使 用 
很 不 方便 。 因 此 ， 我 们 有 必要 探索 更 新 效率 更 高 、 空 间 复杂 度 更 低 的 
在 线 分 配方 案 。 

2. 基 于 对 侦 算 法 的 紧 并 分 配方 案 

在 实际 的 广告 系统 中 ， 不 仪 要 考虑 离线 分 配方 案 规划 时 的 复杂 
度 ， 还 要 考虑 线 上 的 快速 啊 应 。 模 型 的 分 配 策略 不 能 给 服务 器 带 来 内 
存 和 计算 上 的 很 大 负担 ， 而 前 述 原 始 分 配方 案 中 求解 出 来 的 原 问 题 的 
方案 过 于 庞大 (变量 数 正比 于 |E|) 。 因 此 ， 往 往 需要 一 个 更 紧凑 的 分 
配方 案 。 

除了 紧凑 性 的 要 求 ， 如 果 分 配 策略 能 做 到 一 定 程度 上 无 状态 ， 即 
投放 策略 与 前 面 的 投放 历史 无 天 ， 这 对 于 广告 投放 机 的 实现 非常 有 
All: 如 果 与 投放 历史 无 关 ， 多 人 台 广 告 投放 机 之 间 束 不 需要 频繁 进行 同 
步 以 完成 状态 更 新 ， 而 是 根据 预 完 计算 好 的 策略 进行 投放 即 可 ， 这 对 
于 系统 的 稳健 性 和 扩展 性 非常 有 益 。 


在 线 分 配对 偶 问题 的 解 不 是 紧凑 解 ， 其 变量 数目 正比 于 约束 的 数 
目 ， 包 括 供给 约束 和 需求 约束 ， 前 者 变量 的 量 级 数 为 十 万 甚至 百 万 干 
A, (URS BRET Ba oA TOBA RA ARE, FI ARE 
需求 约束 对 应 的 对 偶 变 量 ， 通 过 数学 变换 恢复 出 供给 约束 的 对 偶 变 
和 分 配 率 x WE? 在 参考 文献 [73] 中 ， 作 者 就 给 出 了 这 样 的 方案 
对 相应 对 侦 问 题 的 K.K.T 条 件 的 分 析 ， 推 叶 得 到 了 一 个 由 B 恢 复 a 和 x 最 
优 解 的 计算 方法 : 


》 公房-w)=1 (11.9) 


a€I'(i) 


qi, = max l r7 (—Gia ». Bi — s] (11.10) 
k 
由 于 B 的 维 数 正比 于 合约 数目 |A|， 远 远 小 于 x 的 维 数 (正比 于 
E) ， 我 们 把 这 样 的 方案 称 为 紧凑 分 配方 案 (compact allocation 
plan) 。 利 用 这 一 方法 ， 只 需要 在 一 部 分 历史 数据 上 求解 对 偶 问 题 得 到 
o， 就 可 以 很 高 效 地 进行 在 线 分 配 。 
下 面 的 Matlab 模 拟 实验 代码 摘 述 了 这 一 过 程 。 


cO GD 一 C» ot Se WF LO Lr 


® BD BS BS BO BO BDO BO PO WTO DW d d me e E E E e e m 
ovo OO y ÅO C1 Q4 RD Ms OO sy co Fe wo (n5 — c 


4 In: 

4 alpha : 需求 节点 的 对 偶 变 量 

4 supplies : 供给 节点 列表 

4 demands : 需求 节点 列表 

4  supplyLinks : 满足 各 个 供给 节点 的 需求 节点 列表 

|  demandLinks : 满足 各 个 需求 节点 的 供给 节点 列表 

4 Out: 

| beta : 供给 约束 的 对 偶 变 量 

function beta = get supply.dual(alpha, supplies, demands, supplyLinks, 


demandLinks) 


theta = get theta(supplies, demands, demandLinks) ; 


% 计算 供给 节点 的 对 偶 变 量 


beta = zeros(size(supplies)); 


for i = 1:length(supplies) 


tmp2 = sum(theta(supplyLinks(i])); 
tmpi = tmp2 + sum(theta(supplyLinks{i}) .*alpha(supplyLinks{i})) -1; 


if(abs(tmp2)) < 1e-20 
beta(i) = 0; 

else 
beta(i) = tmpl / tmp2; 


end 


if beta(i) « 0 
beta(i) = 0; 
end 
end 


end 


还 原 原 问题 的 原始 解 X: 


， 需求 约 末 的 对 侦 变 量 
:供给 约束 的 对 个 变 量 
需求 节点 列表 
: 供给 节点 列表 


满足 各 供给 节点 的 需求 节点 列表 


: 满足 名 和 需求 节点 的 供给 节点 列表 


REI 


function x = dual2primal(alpha, beta, supplies, demands, supplyLinks , 


theta = get theta(supplies, demands, demandLinks); 


numSupply = length(supplies); 
numDemand = length(demands) ; 


x = zeros(nunSupply, numDemand) ; 


for j = supplyLinks{i} 
x(i, j) = max(0, theta(j) * (1 + alpha(j) - beta(i))); 


LV In: 

2 alpha 

3 beta 

4 supplies 

) demands 

6 supplyLinks : 
i demandL inks 
8 14 Out: 

9 T 

10 

ll | demandLinks) 
12 

13 

l4 

15 

16 

17 

18 | fori=1 : numSupply 
19 

20 

21 end 

22 | end 


wo 
c 


end 


在 实际 应 用 中 ， 由 于 使 用 所 有 历史 数据 求解 上 述 问题 规模 太 大 ， 
需要 对 数据 作 一 些 采样 以 便 更 高 效 地 得 到 分 配方 案 。 关 于 采样 的 方法 
以 及 采样 以 后 该 问题 求解 的 稳定 性 分 析 ， 参 考 文献 [73] 中 也 都 进行 了 详 
细 讨 论 ， 有 兴趣 的 读者 可 以 进一步 探索 。 

3. 综 合 分 配方 案 SHALE 

前 述 的 基于 对 偶 算 法 的 紧凑 分 配方 案 ， 虽 然 在 线 分 配 时 确实 达到 
了 紧 并 和 无 状态 的 特性 ， 但 是 求解 的 代价 仍然 较 高 。 在 SHALE 算 法 " 
中 ， 作 者 对 求解 对 偶 变 量 的 步骤 进行 了 优化 ， 采 用 原始 对 偶 方法 迭代 
进行 求解 ， 每 次 迭代 的 过 程 中 改善 对 偶 解 。 这 样 的 方法 ， 可 以 比较 高 
效 地 求解 。 这 一 方法 的 Matlab 代 码 如 下 所 示 。 


sSUEESSEBE 


= 
- 


X In: 

X supplies * 需求 节点 列表 

Z demands ; 供给 节点 列表 

x supplyLinks : 满足 各 供给 节点 的 更 求 节点 列表 

X demandLinks : 满足 各 需求 节点 的 供给 节点 列表 

% N : ANAA 

KX Out: 

x alpha : 雷 求 约束 的 对 偶 变 蚤 

¥ beta : eS 2) Rega (S = HF 

function [alpha, beta] = shale(supplies, demands, supplyLinks, 
demandLinks, N) 


theta = get_theta (supplies, demands, demandLinks) ; 
alpha = zeros(size(demands)); 


for i = 1:N 
beta = get supply dual (alpha, supplies, demands, supplyLinks, 


demandLinks) ; 
alpha = get cortract dual(beta, supplies, demands, supplyLinks, 
demandLinks) ; 
end 
end 


Cakes? Ragtime. KREK foo SE 


x 

* F 

Xx beta OMS sp 

X supplyLinks : WESA RAT ead rp 

E demandLinks : 满足 各 个 需求 节点 的 供给 节点 列表 

x suppltes 5 供给 节点 列表 

x demands : 需求 节点 列表 

X Guts 

X aipha ; 雷 求 约束 的 对 偶 变 曹 

function alpha = get „contract „dual (beta, supplies, demands, 
supplyLinks , demandLinks) 


theta = get theta(supplies, demands, demandLinks) ; 


alpha = zeros(size(demands)); 
for j = 1: length (demands) 
a = sum(supplies (demandLinks{i})); 
b = sum(supplies(demandLinks{j}) .* beta(demandLinks{ij})) ; 
tmpi = demands(j) + theta(j) + b - theta(j) = a; 
tmp2 = theta(j) * a; 


if abs(tmp2) < ie-20 
alpha(j) = 0; 
else 
alpha(j) = tmpi / tmp2; 
end 
end 


end 


读者 可 以 目 行 验 证 ， 通 过 原始 对 侦 方 法 得 到 的 a 和 前 述 直 接 求 解 的 
0 一 任 。 在 得 到 了 合同 的 对 偶 解 后 ， 之 后 的 算法 和 参考 文献 [73] 中 的 就 
一 样 了 。 基 于 送 代 的 对 偶 问题 求解 方法 市 省 了 线 下 的 计算 时 间 ， 同 时 
也 能 更 好 地 支持 插入 新 合同 时 的 增 量 求解 。 

4. 司 发 式 的 分 配方 案 HWM 

上 述 根 据 历史 流量 数据 来 求解 紧 凌 分 配方 案 的 方法 原理 上 可 行 ， 
但 在 实际 的 工程 应 用 中 仍然 显得 有 些 复杂 ， 比 如 离线 仍 要 耗费 大 量 时 
间 求 解 对 偶 解 。 我 们 斋 望 实现 一 种 快速 算法 ， 保 持 前 述 方 法 紧 旋 分 
配 、 无 状态 的 特性 ， 效 果 上 也 能 近似 最 优 。 前 述 方 案 中 通过 合同 万 点 
的 对 偶 变 量 〈 是 否 容易 满足 约束 ) 即 可 恢复 最 优 解 ， 受 其 讨论 启发 ， 
我 们 可 以 发 现 ， 只 要 大 体 确 定好 每 个 合同 在 分 配 中 的 相对 优先 级 以 及 
分 配 时 得 到 某 次 展示 的 概率 ， 就 可 以 构造 出 一 种 直觉 上 可 行 的 在 线 分 
配方 案 。 高 水 位 (High Water Mark, HWM) 算法 外 束 是 这 样 一 种 方 
R, 虽然 其 数学 上 不 是 完全 严 刘 ,但 是 由 于 根据 历史 数据 来 制定 分 配 
方案 本 身 就 具有 相当 程度 的 近似 ， 因 此 其 实际 效果 也 相当 不 错 ， 又 加 
上 工程 上 的 便利 性 ， 可 以 考虑 在 在 线 分 配方 案 中 采用 这 种 算法 。 

HWM 分 配 规划 算法 的 关键 有 两 点 ， 一 是 根据 历史 流量 确定 每 个 广 
告 合约 资源 的 紧缺 程度 ， 进 而 得 到 分 配 优先 级 ; 二 是 根据 优先 级 确定 
各 个 广告 合约 的 分 配 比 例 。 优 先 级 可 以 通过 可 满足 各 合约 的 供给 节点 
总 流量 的 升序 排列 得 到 ， 而 在 确定 了 合约 的 优先 级 之 后 ， 按 照 优 先 级 


依次 确定 各 合约 的 分 配 率 以 满足 其 流量 要 求 。 下 面 的 Matlab 代 码 搞 述 了 
HWM 离 线 制定 分 配 计划 的 算法 。 


SP oo -3;c» c1 fF WwW Ne 
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4 
4 
4 
4 
4 
4 
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function [orders, rates] = hwm plan(supplies, demands, demandLinks) 


In: 

supplies ;供给 节点 列表 

demands :需求 节点 列表 

demandLinks : 满足 各 需求 节点 的 所 有 供给 节点 号 列表 
Out: 

orders : 需求 节点 的 分 配 顺 序 

rates : ”需求 节点 分 到 流量 的 比例 


demandNum = length(demands); 


| 生成 各 个 需求 节点 总 供给 
eligibles = zeros(size(denands)); 
for i = i:demandNun 
eligibles(i) = sum(supplies(denandLinksíi))); 


end 


% 把 需求 节点 按照 紧急 程度 ( 需求 -供给 比 ) 降序 排序 


[^, orders] = sort(demands ./ eligibles, ’descend’); 


1 按 分 配 顺 序 依次 处 理 各 需求 节点 


rates = zeros(size(demands)); 


remains - supplies; 
for d = orders 
for s = demandLinks{d} 
total remain = sum(renains(demandLinks(d))); 
if total remain < demands(d) 
rates(d) = 1.0; 
else 
rates(d) = demand(d) / total remain; 
end 
remains(s) remains(s) * (1 - rates(d)); 
end 


end 


end 


根据 上 面 离线 生成 的 分 配方 案 ， 也 即 对 每 个 需求 节点 计算 出 来 的 
分 配 优先 级 (order) 和 分 配 率 (rate) ， 可 以 很 方便 地 在 线 上 服务 中 对 
每 次 展示 作出 人 简单 的 决策 ， 这 一 决策 的 过 程 如 图 11-6 所 示 。 
优先 级 
分 配 率 
线 上 投放 概率 


优先 级 
分 配 率 
线 上 投放 概率 


图 11-6 HWM 算 法 在 线 分 配方 案 示意 

HWM 算法 在 线 分 配 的 基本 逻辑 是 ， 根据 优先 级 依次 检查 各 个 符合 
条 件 的 候选 ， 直 至 它们 的 累积 分 配 比 例 超过 1， 然 后， 按照 这 些 合约 对 
应 的 分 配 比 例 随机 选择 一 个 合约 投放 (如 图 11-6 的 上 图 所 示 ) ; 如 果 
所 有 的 候选 合约 总 的 分 配 比例 不 足 1， 那 么 以 1 减 去 其 总 分 配 比 例 的 概 
率 请 求 其 他 剩余 流量 变现 的 广告 产品 (如 图 11-6 的 下 图 所 示 ) 。 此 分 配 
过 程 的 关键 思想 在 于 以 概率 和 优先 级 相配 合 的 方式 进行 投放 决策 。 下 
面 的 Matlab 代 码 描 述 了 HWM 在 线 分 配 的 算法 。 


cc co 一 oOo c A CO BO m 
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In: 
candidates: 满足 本 次 请 求 的 所 有 需求 节点 列表 
orders — ， 所 有 需求 节点 的 分 配 优先 级 
rates : DRAR 
Out: 
candid ;选中 的 广告 ， 如 果 返 回 -1， 则 将 此 次 展示 交还 Server， 再 从 其 他 当道 查询 广告 


function candId = hwm serve(candidates, orders, rates) 


LEE AA ARR ARR ARARA 
candNum = length(candidates) ; 
[^, sortedIndex] = sort (orders(candidates)); 


candidates = candidates(sortedIndex) ; 


和 对 此 次 展示 产生 分 配 随机 数 


randValue = rand(); 


1 计算 累积 Serving Rate 的 截断 位 置 
accuRate = cunsun(rates(candidates)); 
candId = -1; 


for i = 1:candNum 


if randValue < accuRate(i) 
candId = i; 
break; 

end 


end 


end 


11.4 延伸 思考 


合约 与 竞价 混合 的 广告 产品 在 供给 方 很 常见 ， 除 了 本 章 HWM 算 法 
中 给 出 的 启发 式 方案 外 ， 是 否 还 有 更 加 系统 的 方案 来 优化 这 样 的 混合 
产品 的 收入 ? 

本 书 由 'ePUBw.COM | EXE, ePUBw.COM 提 
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要 提高 在 线 广告 的 效果 ， 受 众 定 向 是 最 重要 的 核心 技术 之 一 。 从 
计算 广告 的 核心 问题 ， 即 优化 一 组 流量 上 的 利润 这 一 挑战 来 看 ， 受 众 
定向 技术 是 对 广告 (a) HFP u 、 上 下 文 (o0 这 三 个 维度 提取 有 
意义 的 特征 《这些 特征 也 称 为 标签 ) 的 过 程 。 由 于 上 下 文 标 签 也 可 以 
认为 是 即时 的 用 户 兴 趣 ， 因 此 我 们 把 它们 统称 为 受众 定向 。 受 众 定 向 
虽然 不 见得 是 计算 广告 中 最 困难 的 技术 ， 但 是 确实 是 在 线 广告 、 特 别 
是 展示 广告 最 核心 的 驱动 力 之 一 ， 也 是 计算 广告 成 为 大 数据 典型 应 用 
的 关键 。 

关于 各 种 受众 定向 技术 的 原理 ， 应 该 在 第 2 章 广告 有 效 性 模型 的 基 
础 上 进行 理解 。 一 般 来 说 ， 对 于 某 种 特定 的 定向 技术 ， 需 要 同时 关注 
其 效果 和 规模 两 方面 的 指标 ， 同 时 提供 履 盖 率 较 高 但 精准 程度 有 限 的 
标签 和 那些 非常 精准 但 量 相 对 较 小 的 标签 ， 这 有 利于 市 场 形 成 竞争 的 
环境 ， 也 为 竞价 广告 形成 充分 竞争 提供 了 基础 。 

从 技术 框架 来 看 ， 受 众 定 向 标签 可 以 分 成 用 户 标签 、 上 下 文 标 签 
和 广告 主 定制 化 标签 3 种 类 型 ， 其 实现 方案 也 有 较 大 的 不 同 。 本 章 重点 
介绍 前 两 种 定向 技术 的 做 法 ， 而 广告 主 定 制 化 标签 属于 需求 方 定 义 的 
标签 ， 第 14 章 讲述 DSP 技 术 时 再 介绍 。 


上 下 文 定向 需要 对 广告 所 在 的 页 面 进行 分 析 ， 然 而 这 一 分 析 过 程 
与 搜索 引擎 的 聆 虫 有 很 大 的 不 同 。 结 合 广告 对 上 下 文 信息 的 需求 特 
点 ， 一 般 可 以 采用 一 种 半 在 线 的 方式 抓 取 和 分 析 页 面 ， 这 种 方式 避免 
了 无 效 的 页 面 分 析 计 算 ， 又 能 够 快速 地 啊 应 需要 分 析 的 页 面 。 

行为 定 同 是 根据 用 户 历 史上 的 网 络 访问 行为 对 用 户 打 标签 的 过 
程 。 哪 些 网 络 行为 有 价值 是 挖掘 行为 数据 来 源 时 需要 考虑 的 问题 。 本 
章 将 列举 一 些 业界 公认 的 有 价值 的 行为 数据 类 型 ， 并 给 出 使 用 多 种 数 
据 类 型 进行 行为 定 辣 的 基本 框 染 。 由 于 海量 用 户 的 原始 网 络 行为 的 数 
据 量 一 般 来 说 特别 巨大 ， 如 何 设计 非常 高 效 的 数据 组 织 方式 以 及 合理 
的 访问 流程 对 于 行为 定向 的 实用 化 是 非常 关键 的 。 行 为 定向 一 般 采 用 
reach/CTR 曲 线 进行 半 定 量 的 评价 ， 而 此 曲线 的 解读 方法 也 将 在 本 章 中 
TE ° 

实际 上 ， 受 众 定 同 除 了 服务 于 广告 产品 外 ， 也 成 为 广告 市 场 中 相 
天 数据 产品 的 关键 技术 。 而 这 些 数据 产品 的 地 位 ， 也 随 看 实效 广告 的 
发 展 变 得 越 来 越 重 要 ， 因 此 ， 对 于 受众 定 回 技术 的 探讨 ， 除 了 考虑 广 
告 产品 中 的 需求 之 外 ， 也 必须 考虑 数据 产品 带 来 的 需求 。 与 受众 定 辐 
直接 相关 的 数据 产品 主要 是 数据 交易 平台 和 是 数据 管理 平台 。 这 两 种 
产品 从 第 一 方 数据 和 第 三 方 数据 的 角度 出 发 ， 专 门 提供 数据 加 工 和 区 
易 功 能 ， 实 际 上 它们 是 受众 定向 技术 直接 产品 化 的 结果 。 本 章 也 会 简 
单 介绍 这 类 数据 加 工 产 品 的 技术 染 构 。 


12.1 受众 定向 技术 分 类 


先 来 回顾 一 下 第 4 章 中 介绍 的 受众 定向 常见 方法 (参见 图 12-1) 。 
总 体 上 看 ， 按 照 计算 框架 的 不 同 ， 这 些 受 众 定 辣 技 术 可 以 分 为 以 下 三 
种 类 型 。 

(1) 用 户 标签 ， 即 可 以 表示 成 t (u) 形式 的 标签 ， 这 是 以 用 户 历 
史 行 为 数据 为 依据 ， 为 用 户 打 上 的 标签 。 

(2) 上 下 文 标签 ， 即 可 以 表示 成 t (c) 形式 的 标签 ， 这 是 根据 用 
户 当 前 的 访问 行为 得 到 的 即时 标签 。 

(3) 定制 化 标签 ， 即 可 以 表示 成 t (a, u) 形式 的 标签 ， 这 也 是 一 
种 用 户 标 和 俭 ， 不 同 之 处 在 于 是 针对 某 一 特定 广告 主 而 言 的 ， 因 而 必须 
根据 广告 主 的 某 些 属性 或 数据 来 加 工 。 
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以 上 各 种 定向 中 ， 地 域 定向 、 频 道 定向 和 上 下 文 定 向 属于 t (c 的 
定向 方式 ， 人 口 属性 定向 、 行 为 定向 属于 t (u) 的 定向 方式 ， 而 重 定向 
和 新 客 推荐 (look-alike) 则 是 t (a, u) 的 定向 方式 。 各 种 定向 的 标签 
被 应 用 于 根据 用 户 和 环境 信息 选取 广告 候选 的 过 程 ， 因 而 对 广告 投 送 
的 结果 有 比较 显著 的 影响 。t (c) Mt (u) 两 种 定向 方式 ， 一 个 是 根据 
当前 环境 信息 ， 一 个 是 根据 历史 日 志 数 据 ， 因 而 在 技术 方案 上 有 比较 
大 的 区 别 。 下 面 将 对 这 两 种 方式 的 典型 代表 ， 即 上 下 文 定 和 同和 行为 定 
向 的 实现 进行 讨论 。 而 定制 化 标签 ， 即 t (a, u) 形式 的 标签 ， 变 成 了 
完全 开放 的 标 登 体系， 其 标签 数量 不 再 是 解数， 而 是 有 可 能 与 广告 主 
数目 成 正比 ， 因 此 最 适合 于 在 程序 化 交易 的 环境 中 由 需求 方 直 接 提 
供 ， 这 种 标签 将 在 第 14 章 讨论 DSP 时 再 介绍 。 实 际 上 ， 我 们 还 需要 对 
每 个 广告 也 打上 标签 t (a) ， 以 便 与 上 下 文 或 用 户 的 标签 做 匹配 ， 广 告 
标签 一 般 有 两 种 常用 选择 :一 是 直接 将 广告 投放 中 的 广告 主 、 广 告 计 
划 、 广 告 组 、 关 键 词 等 直接 用 作 标 签 ， 二 征用 人 工 的 方式 归 类 。 可 以 
用 一 个 (a, u, c) 上 的 三 维 坐 标 来 示意 以 上 的 几 种 标签 类 型 ， 参 见 图 
12-2 。 
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图 12-2 (a, u, c) 空间 中 的 标签 示意 
值得 注意 ， 受 众 定向 技术 并 非 按照 上 述 的 分 类 严格 区 分 或 者 一 成 
不 变 的 。 各 个 三 告 网 络 或 是 同 技 术 提 供 丙 能 够 授 触 到 的 数据 类 型 和 规 
模 痢 各 不 相同 ， 基 于 这 些 数 据 本 身 进 行 深入 挖掘 ， 并 找到 对 广告 投放 
有 意义 的 信号 ， 才 是 受众 定向 在 使 用 中 的 重点 。 田 外 ， 上 面 的 分 类 主 
要 是 为 了 方便 技术 方案 的 讨论 ， 从 产品 角度 来 看 ， 以 上 几 种 受众 定向 
标签 对 于 广告 主 而 言 并 没有 本 质 区 别 。 


12.2 上 下 文 定向 


我 们 移 来 看 那些 归 类 为 { (c) 的 受众 定向 方式 。 这 样 的 定向 中 有 
一 些 根据 广告 请 求 中 的 参数 信息 经 过 位 单 运算 就 可 以 得 到 ， 如 地 域 定 
癌 、 频 道 /URL 定 同 、 操 作 系 统 定 同等 ， 男 外 一 类 则 是 根据 上 下 文 页 面 
的 一 些 特征 标签 ， 如 关键 词 、 主 题 、 分 类 等 进行 定向， 我 们 重点 讨论 
这 样 的 上 下 文 定 同 技术 。 

抛 开标 签 体系 不 谈 ， 仅 从 打 标 签 的 方法 上 来 看 ， 上 下 文 定 同 主 要 
有 以 下 几 种 思路 。 

(1) 用 规则 将 页 面 归 类 到 一 些 频 道 或 主题 分 类 。 例 如 ， 将 
auto.sohu.com 下 的 网 页 归 在 “汽车 ”这 个 分 类 中 。 这 种 方法 相对 简单 。 

(2) 提取 页 面 中 的 关键 词 。 这 是 在 将 搜索 引擎 的 关键 词 匹配 技术 
推广 到 媒体 广告 上 时 目 然 产生 的 ， 也 是 上 下 文 定 同 的 基本 方法 。 

(3) 提取 页 面 入 链 销 文本 中 的 关键 词 。 这 需要 一 个 全 网 的 怜 虫 作 
支持 ， 因 此 已 经 超出 了 一 般 意 义 下 广告 系统 的 范畴 ， 有 兴趣 的 读者 可 
以 参考 搜索 引擎 方面 的 有 关 文 献 。 

(4) 提取 页 面 流量 来 源 中 的 搜索 关键 词 。 这 种 方法 除了 页 面 内 
容 ， 也 需要 页 面 访 问 的 日 志 数 据 作文 持 ， 从 技术 方案 上 看 更 接近 后 面 
介绍 的 行为 定 癌 。 

(5) 用 主题 模型 将 页 面 内容 映 射 到 语义 空间 的 一 组 主题 上 ， 这 样 
做 的 目的 是 为 了 泛 化 广告 主 的 需求 ， 提 高 市 场 的 流动 性 和 竞价 水 平 。 


在 以 上 各 种 思路 中 ， 关 键 词 提取 是 一 项 基础 技术 。 上 下 文 定向 中 
的 关键 词 提取 可 以 按照 信息 检索 中 的 一 般 方法 ， 即 选取 页 面 内 容 中 TF- 
IDF 较 高 的 词 作为 关键 词 ( 见 10.1.2 节 中 的 具体 介绍 ) ; 也 可 以 采用 需 
求 方 驱 动 的 思路 ， 从 广告 商 相关 描述 中 得 到 商业 价值 高 的 关键 词 表 和 
IDF， 再 与 页 面 内 容 中 关键 词 的 TF 一 起 计算 TF-IDF 来 选取 关键 词 。 当 
能 够 得 到 比较 丰富 的 广告 信息 时 ， 如 运营 搜索 引 警 的 文本 广告 ， 或 者 
可 以 拿 到 广告 主 SEM 词 表 时 ， 后 一 种 方法 往往 更 加 有 效 。 

确定 了 对 上 下 文 页 面 打 标签 的 方法 以 后 ， 在 在 线 广告 投放 时 ， 页 
面 标签 系统 需要 对 广告 投放 机 查询 的 某 一 个 URL 快 速 返回 其 对 应 的 标 
签 。 复 杂 的 打 标签 计算 是 不 可 能 马上 完成 的 ， 不 过 在 广告 的 问题 中 ， 
某 一 次 展示 时 标签 的 缺失 并 不 是 致命 性 的 。 根 据 广告 的 这 一 特点 ， 可 
以 用 一 种 半 在 线 的 方式 实现 页 面 抓 芭 和 打 标 签 的 逻辑 。 


12.2.1 3i: TE2 A 


上 下 文 页 面 的 有 关 信 息 显 然 不 可 能 在 广 乞 请 求 发 生 时 实时 分 析 得 
到 ， 那 么 是 否 需 要 一 个 类 似 于 搜索 引擎 爬虫 的 系统 来 预 匈 抓 取 呢 ? 对 
于 广告 系统 来 说 ， 征 没有 这 个 必要 的 。 因 为 页 面 信息 对 搜索 引擎 而 言 
征服 务 的 主体 内 容 ， 而 对 广告 系统 而 言 ， 只 是 锦 上 闫 花 的 补充 信息 ， 
完全 可 以 设计 一 个 更 轻 量 级 、 效 率 更 高 的 页 面 抓 取 系统 。 这 一 系统 的 
设计 关键 古 不 作 任 何 离线 抓 取 ， 而 在 在 线 服务 产生 实际 需求 后 才 尽 快 
抓 取 ， 我 们 把 它 叫 作 半 在 线 (near-line) 的 抓 取 系统 。 


url-http://a... 
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图 12-3 上 下 文 定向 半 在 线 抓 取 系统 示意 
半 在 线 抓 取 系统 的 工作 原理 如 图 12-3 所 示 ， 系 统 用 一 个 缓存 (如 
9.5.7 节 中 介绍 的 Redis) 来 保存 每 个 URL 对 应 的 标签 ， 当 在 线 的 广告 请 


求 到 来 时 进行 如 下 操作 。 

(1) 如 果 该 请 求 的 上 下 文 URL 在 缓存 中 存在 ， 那 么 直接 返回 其 对 
应 的 标签 。 

(2) 如 果 该 URL 在 服务 中 不 存在 ， 为 了 广告 请 求 能 及 时 得 到 处 
理 ， 当 时 返回 空 的 标签 集合 ， 同 时 立刻 向 后 人 台 的 抓 取 队列 中 加 入 此 
URL， 这 样 在 较 短 的 一 段 时 间 (通常 为 秒 至 分 钟 量 级 ) 之 后 该 URL 就 
被 抓 取 下 来 并 打上 标签 存 入 缓存 中 。 

(3) 考虑 到 页 面 内 容 可 能 会 不 定期 更 新 ， 可 以 设置 缓存 合适 的 
TTL (Time to Live) 以 做 到 自动 更 新 标签 。 


这 样 的 方案 有 以 下 的 两 点 好 处 。 自 先是 在 线 缓存 的 使 用 效率 非常 
高 ， 仅 仅 那些 最 近 有 广告 请 求 发 生 的 URL 才 会 被 抓 取 ， 这 样 不 需要 耗 
®% 大 量 的 扑 虫 资源 去 抓 取 可 能 根本 用 不 到 的 URL。 其次， 因为 只 抓 取 
天 要 的 页 面 ， 并 且 可 以 在 该 页 面 第 一 次 广告 请 求 后 很 快 得 到 页 面 标 
页 面 的 信息 覆盖 率 了 就 会 很 高 。 
半 在 线 的 上 下 文 抓 取 系统 非常 典型 地 揭示 了 在 线 广告 系统 弱 一 至 
的 业务 需求 : 只 要 保证 大 多 数 的 广告 决策 最 优 正常 ， 很 少量 的 次 优 决 
策 甚至 随机 决策 都 是 可 以 接受 的 。 充 分 把 握 这 一 特点 ， 对 于 设计 高 效 
率 、 低 成 本 的 广告 系统 至 天 重要 。 

12.2.2 文本 主题 挖掘 

根据 上 下 文 内 容 进行 受众 定向 的 粒度 可 以 精细 到 关键 词 ， 也 可 以 
粗略 到 页 面 的 类 型 。 除 了 这 两 种 极端 情况 ， 我 们 也 可 以 考虑 将 页 面 内 
容 直 接 映 射 到 一 组 有 概括 性 意义 的 主题 上 ， 比 如 将 一 个 讲 编 程 语言 的 
博客 页 面 映 射 到 “IT 技术 ”这 样 的 主题 上 。 如 末 把 页 面 视 为 一 个 文档 ， 
这 就 对 应 于 文本 主题 模型 (topic model) 的 研究 问题 。 文 本 主题 模型 有 
两 大 类 别 : 一 种 是 预 完 定 义 好 主题 的 集合 ， 用 监督 学 习 的 方法 将 文档 
映 冉 到 这 一 集合 的 元 素 上 ; 一 种 是 不 预先 定义 主题 集合 ， 而 是 控制 主 
题 的 总 个 数 或 聚 类 程度 ， 用 非 监 督学 习 的 方法 目 动 学 习 出 主题 集合 以 
及 文档 到 这 些 主 题 的 映射 函数 。 

广告 中 的 主题 挖掘 有 两 种 用 途 : 如 果 仅 仅 用 于 广告 效 末 优化 的 特 
征 提取 ， 那 么 监督 或 非 监督 的 方法 都 可 以 ;如 果 是 用 于 对 广告 主 售卖 
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的 标签 体系 ， 那 么 应 该 优 移 考 虑 采用 监督 学 习 的 方法 ， 因 为 这 样 可 以 
预先 定义 好 对 广告 主 有 意义 且 可 解释 的 标签 体系 ， 对 售卖 会 有 很 大 帮 
助 。 

我 们 从 非 监督 方法 说 起 。 假 设 有 一 个 由 M 个 词组 成 的 词 表 以 及 一 
组 文档 {d ，d,，…，d、}， 采 用 BoW 表 示 ， 文 档 d 表示 为 {x,，x,，… 
(lan <J¥) 


xs) 的 形式 ， 其 中 x, 为 词 表 中 第 mm 个 词 w ,在 d 中 对 应 的 
词 频 或 TF-IDF 值 。 显 然 ， RT, EXX Y, oe dE Ae REL o 
假设 这 一 文档 集合 主题 模型 对 应 着 {1，2，…，T} 这 一 组 主题 ， 我 们 的 
目的 就 是 对 每 个 文档 得 到 其 在 这 些 主题 上 的 强度 {Zz Zao to Za 
(l<n<WN). 

1.LSA 模型 

文本 主题 模型 最 初 的 解决 思路 是 对 上 面 文档 和 词组 成 的 矩阵 X 进 行 
奇异 值 分 解 ban Value Decomposition, SVD) ， 找 到 这 一 矩阵 的 


主要 模式 ， 这 一 方法 称 为 潜在 语义 分 析 (Latent Semantic Analysis , 
LSA) mm"。LSA 的 分 解 过 程 可 以 表示 如 下 : 
B= lived liso dx] edid (2) 


其 中 K 为 矩阵 X 的 秩 ，S1 2 52 之 85K 为 X 的 K 个 奇异 值 。 
左 侧 的 矩阵 就 是 将 潜在 语义 空间 中 的 主题 映射 到 某 个 文档 的 变换 矩 
阵 ， 而 右 侧 的 矩阵 则 是 主题 映射 到 某 个 文档 词 表 中 某 个 词 的 变换 矩 
阵 。 最 多 可 以 得 到 的 主题 数目 等 于 和 矩阵 X 的 秩 K， 不 过 一 般 情况 下 ， 者 


会 选择 一 个 远 小 于 K 的 主题 数目 用 来 建 模 。 当 选择 的 主题 数目 为 K 
时 ， 实 际 上 是 用 下 式 的 XX 进行 了 近似 
X= (o; : ^ar) diag(s1,°++ 87) (1: Br) (12.2) 

这 等 价 于 令 所 有 的 St( 了 <t < 太 ) 都 等 于 0， 换 句 话说 ， 通 过 
这 种 方式 去 掉 了 大 多 数 非 主要 因素 的 影响 ， 从 而 得 到 了 整个 语义 空间 
比较 平滑 的 描述 。 实 际 上 ， 从 上 述 的 SVD 分 解 结果 可 以 很 容易 得 到 每 
个 文档 的 相应 主题 ， 请 参见 参考 文献 [39] 。 

根据 奇异 值 的 性 质 ， 我 们 知道 所 有 的 奇异 值 都 是 非 负 的 ， 但 是 
LSA 得 到 的 两 个 变换 矩阵 不 能 保证 每 个 元 素 都 为 非 负 值 。 这 一 点 对 应 
的 直觉 意义 是 ， 如 果 一 篇 文档 有 某 个 主题 的 话 ， 可 能 该 文档 中 出 现 某 
些 词 的 频次 的 期 望 值 为 负 。 这 一 点 ， 直 观 上 并 不 十 分 容易 理解 ， 也 是 
LSA 模 型 与 后 面 几 种 概率 文档 主题 模型 不 太一 样 的 地 方 。 

2.PLSI 模型 和 GaP 模型 

LSA 方法 的 物理 意义 清楚 ， 也 有 成 熟 的 数学 工具 可 以 利用 ， 因 而 
在 信息 检索 中 得 到 了 比较 早 的 应 用 。 类 似 的 思想 也 可 以 用 概率 建 模 的 
方式 来 表达 ， 这 就 是 概率 潜在 语义 索引 (Probabilistic Latent Semantic 
Indexing, PLSI) 方法 m。PLSI 方 法 是 通过 对 文档 生成 的 过 程 进行 概率 
建 模 来 进行 主题 分 析 。 这 一 模型 下 的 文档 生成 过 程 可 以 表述 为 以 下 两 
个 步骤 。 


(1) 根据 每 个 文档 d, 生成 对 应 的 一 个 主题 z。 


(2) 给 定 主题 ， 对 应 一 个 词 的 多 项 式 分 布 p (wiz, B) ， 据 此 生 
成 一 个 词 w， 其 中 的 参数 B= (Ba -. BO “， 而 恨 即 为 当 z=1 时 对 应 的 
多 项 式 分 布 参数 。 

PLSI 的 图 模型 如 图 12-4 所 示 。 


图 12-4 PLSI 概 率 图 模型 表示 
对 应 于 上 面 的 生成 过 程 ， 文 档 集 X 的 生成 似 然 值 可 以 表达 为 : 


In P(X =). P E JP(wy,d;) EY Tnm n} Pld) (d) , Pn 2)P i) 
nm 


(123) 


=). Tnm hf ^ P Wmlz )Pldnlz)P( a) 
nm 


其 中 P (z) 为 多 项 式 分 布 Multi (zo) ， 显 然 ， 这 也 是 一 个 混合 模 
型 的 形式 ， 如 果 P (diz) AP (wiz) 也 都 采用 多 项 式 分 布 形式 ， 就 是 
PLSI 模 型 。PLSI 是 概率 化 了 的 LSA 模 型 ， 可 以 将 P (dlz) 和 P (w |z) 
的 参数 分 别 对 应 于 LSA 中 的 两 个 变换 矩阵 。 这 两 个 模型 的 形式 很 相 
似 ， 不 过 物理 意义 有 所 不 同 : 在 PLSI 中 ， 变 换 和 矩阵 即 两 个 条 件 分 布 的 
元 素 都 大 于 0， 即 在 给 定 一 个 主题 的 情况 下 ， 某 个 词 频 的 期 望 值 不 会 为 
负 ， 这 一 点 与 直觉 更 为 吻合 ， 也 更 加 合理 。 在 PLSI 模 型 下 ， 给 定 一 个 
新 文档 ， 求 得 相应 主题 分 布 的 过 程 ， 请 参见 参考 文献 [39] 。 


概率 模型 的 另 一 个 好 处 是 可 以 较 容 易 地 实现 分 布 式 求解 。 可 以 看 
出 ，PLSI 模 型 是 10.3.2 世 中 介绍 的 指数 族 混 合 分 布 的 特例 ， 其 中 的 基本 
分 布 为 多 项 式 分 布 。 因 此 ， 可 以 直接 套用 EM 算法 以 及 对 应 的 
MapReduce 或 MPI 送 代 人 解法 来 求解 。 而 LSA 模 型 用 到 的 SVD 分 解 ， 需 要 
一 定 的 技巧 才能 变 成 分 布 式 版 本 。 因 此 ，PLSI 比 LSA 在 实际 海量 数据 
上 的 文档 主题 模型 更 具有 实用 优势 。 

PLSI 模 型 用 多 项 式 分 布 来 描述 主题 分 布 和 主题 中 的 词 分 布 ， 而 如 
果 采 用 y 泊 松 过 程 来 建 模 ， 即 假设 每 个 主题 生成 的 概率 用 独立 的 y 分 布 
来 描述 ， 而 主题 中 某 词 的 产生 服从 泊 松 分 布 ， 就 构成 了 y 泊 松 (GaP) 
模型 。 从 变量 的 依赖 关系 上 看 ，GaP 与 PLSI 很 相似 ， 只 不 过 两 者 中 条 
件 分 布 的 指数 族 形式 不 同 。GaP 与 PLSI 相 比 ， 由 于 没有 将 每 个 文档 中 各 
个 主题 变量 的 强度 进行 归 一 化 g， 因 此 对 内 容 相 似 的 长 文本 和 短文 本 的 
概率 描述 是 不 同 的， 而 泊 松 词 产 生 概 率 也 更 加 适合 离散 到 达 事件 的 描 
述 ， 因 而 GaP 模 型 在 主题 建 模 上 有 一 定 的 合理 性 。 不 过 ，GaP 模 型 的 
EM 最 大 似 然 解 不 像 PLSI 那 样 有 人 简单 的 财 式 更 新 公式 ， 在 参考 文献 [18] 
中 ， 作 者 也 是 采用 一 种 近似 的 方法 来 优化 ， 因 此 ， 这 一 模型 在 工程 中 
的 实用 性 受到 了 一 定 的 限制 。 

3.LDA 模型 

10.3.3 节 中 介绍 的 贝 叶 斯 方法 也 可 以 应 用 于 PLSI 模 型 ， 这 样 做 的 目 
的 是 在 文档 信息 不 足 或 者 噪声 较 大 时 能 够 利用 贝 叶 斯 的 框架 对 结果 进 
行 有 效 的 平滑 。 这 一 思路 也 就 产生 了 潜在 狄 利克 雷 分 配 (Latent 


Dirichlet Allocation, LDA) 方法 %。 在 LDA 方 法 中 ， 我 们 视 PLSI 模 型 
的 参数 为 随机 变量 ， 对 于 某 一 篇 文档 ， 其 生成 过 程 可 以 搬 述 如 下 。 

(1) 根据 一 个 泊 松 分 布 选择 文档 的 长 度 M 。 

(2) 根据 w 的 先 验 分 布 Dir (a) 生成 @。 

(3) 对 每 个 文档 中 的 词 mE{1，…，M}， 根 据 Multi (o) 分 布 选 
择 一 个 主题 z; 给 定 主题 ， 对 应 一 个 词 的 多 项 式 分 布 p (wz, p). 18 
此 生成 一 个 词 w,。 

其 对 应 的 图 模型 如 图 12-5 所 示 。 


图 12-5 LDA 概 率 图 模型 表示 
把 这 一 生成 过 程 与 PLSI 对 比 可 以 知道 ， 这 相当 于 PLSI 的 贝 叶 斯 版 
本 ， 即 给 Topic 的 分 布 w 加 上 了 先 验 分 布 ， 而 移 验 分 布 采 用 的 是 共 斩 形 
式 ， 即 狄 利克 雷 分 布 。 当 然 也 可 以 对 主题 的 词 频 分 布 B 用 贝 叶 斯 的 方 
法 加 以 平滑 ， 这 实际 上 对 应 了 参考 文献 [10] 中 的 LDA Smoothing 77 


法 。 从 10.3.3 节 中 的 介绍 可 知 ， 可 以 采用 经 验 贝 叶 斯 的 方案 来 确定 这 两 
个 超 参数 q。 由 PLSI 模 型 到 LDA 模 型 对 文档 生成 过 程 的 摘 述 更 为 清晰 ， 
而 根据 贝 叶 斯 学 习 的 作用 可 知 ，LDA 模 型 在 数据 噪声 较 大 或 者 每 个 文 
档 内 容 较 少时 可 以 达到 比较 稳健 估计 的 效果 。 


如 琳 采 用 经 验 贝 叶 斯 的 方法 来 确定 超 参 数 ag， 那 么 此 时 原来 的 参数 
@ 束 变 成 了 隐 变 量 ， 优 化 的 参数 除了 a， 还 包括 参数 B， 优 化 的 目标 函数 
可 以 写成 : 


a.) = IL IL. E) dw (12.4) 


由 于 PLS 模型 不 是 指数 族 分 布 ， 因 而 其 对 应 经 验 贝 叶 斯 模型 的 解 
不 能 通过 EM 方法 得 到 闭 式 解 ， 而 古 需 要 采用 变 分 法 近似 求解 。 在 参 
考 文献 [10] 中 ， 对 这 一 模型 的 变 分 解法 进行 了 详细 的 介绍 。 不 过 在 实际 
的 工程 实践 中 ，LDA 模型 更 为 常用 的 更 新 方法 是 吉 布 斯 采样 (Gibbs 
sampling) 法 ， 而 且 这 种 方法 更 容易 实现 分 布 式 更 新 求解 。 关 于 分 布 式 
吉 布 斯 采样 方法 可 以 参考 参考 文献 [61]。 

4. 有 监督 主题 模型 

无 监督 的 主题 模型 技术 上 发 展 比较 充分 ， 但 结合 广告 的 业务 来 
看 ， 其 得 到 的 主题 有 时 会 存在 混淆 、 不 吻 解 释 等 问题 。 因此， 其 结 
主要 适用 于 非 直接 售卖 的 场景 ， 如 用 作 点 击 率 预 测 的 特征 。 

当 标 签 直接 用 于 售卖 时 ， 它 们 往往 是 预先 定义 好 的 。 因 此 ， 有 监 
督 的 主题 模型 对 于 这 种 场景 更 加 适用 。 根 据 前 面 的 讨论 ， 它 可 以 是 一 
组 非 结构 化 的 标 侈 集合 ， 也 可 以 是 一 个 结构 化 的 层次 标签 体系 。 有 两 
种 思路 来 解决 此 问题 : 一 是 采用 多 标签 分 类 (multilabel 
classification) 的 方法 ， 二 是 沿用 上 面 的 主题 模型 方法 ， 将 其 变 成 有 监 


p(w 


督 主题 模型 。 关 于 有 监督 主体 模型 ， 以 上 述 的 LDA 为 出 发 点 ， 研 究 者 
也 提出 了 若干 种 相关 的 方法 。 

结合 广告 定向 的 情景 ， 可 以 关注 两 种 有 监督 主题 模型 。 

(1) 有 监督 的 LDA (supervised LDA, sLDA) 凸 ， 这 是 在 某 种 标 
签 监督 下 进行 主题 挖掘 的 通用 模型 ， 适 用 于 标签 为 各 种 分 布 的 情形 。 
当 标签 为 离散 值 时 ， 就 对 应 于 根据 某 种 分 类 进行 主题 挖掘 。 

(2) 层次 化 的 有 监督 的 LDA (Hierarchically Supervised LDA , 
HSLDA) 外。 在 此 模型 中 ， 标 注 的 类 型 是 一 个 Hierarchy 上 的 层次 标 
签 ， 这 非常 契合 于 广告 中 的 需求 。 关 于 这 方面 的 具体 技术 可 以 参考 上 
面 提 到 的 文献 。 

值得 注意 的 是 ， 在 文档 主题 挖掘 领域 ， 还 有 一 类 方法 也 与 
Hierarchy 有 关 ， 如 HLDA 或 HDP， 但 是 其 问题 定义 是 在 某 个 数据 集 上 学 
习 得 到 一 个 Hierarchy 结 构 ， 而 不 是 根据 一 个 给 定 的 Hierarchy 上 的 标准 
挖掘 潜在 主题 。 因 此 ， 这 类 工作 不 属于 有 监督 主题 模型 的 范畴 。 

将 有 监督 的 文本 主题 模型 应 用 于 上 下 文 定向 ， 虽 然 在 标签 体系 的 
设计 上 可 以 做 到 更 加 合理 ， 更 有 针对 性 ， 但 也 给 训练 过 程 带 来 了 麻 
Bi. 除了 准备 文档 集合 ， 还 需要 准备 对 应 的 标签 标注 ， 这 么 一 来 训练 
集 能 够 覆盖 到 的 文档 规模 就 受到 很 大 限制 。 因 此 ， 在 有 监督 文本 主题 
模型 的 实用 过 程 中 ， 最 关键 的 一 点 是 找到 系统 性 地 进行 批量 标注 的 方 
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12.3 行为 定向 


VAR At u) 的 受众 定向 方式 包括 从 用 户 网 上 浏览 记录 加 工 得 到 的 
兴趣 定向 以 及 根据 用 户 历史 所 在 的 地 域 得 到 的 用 户主 要 居住 地 
的 “Where on Earth” 定 向 等 。 由 于 这 些 都 是 根据 用 户 的 历史 行为 进行 控 
据 的 问题 ， 因 此 把 它们 统称 为 行为 定向 ( Behaviorial Targeting , 
BT) ° 

行为 定向 需要 进行 大 规模 的 数据 挖掘 ， 是 在 线 广告 中 数据 利用 和 
变现 最 重要 的 计算 问题 之 一 。 这 一 问题 可 以 描述 为 ， 根 据 某 用 户 一 段 
时 期 内 的 各 种 网 络 行为 ， 将 该 用 户 映 射 到 某 个 定向 标签 上 。 关 于 行为 
定向 可 能 用 到 的 有 价值 的 数据 来 源 可 以 参考 6.6.1 节 。 而 行为 定向 的 用 
到 的 标签 体系 、 建 模 方法 、 特 征 生 成 和 评测 指标 等 问题 将 在 下 面 分 别 


讨论 。 


行为 定向 问题 的 目标 是 找 出 在 某 个 类 型 的 广告 上 eCPM 相对 较 高 的 
人 和 人群 。 如 采 假 设 在 该 类 型 的 广告 上 点 击 价值 近似 一 致 ， 那 么 问题 融 园 
化 为 找 出 在 该 类 型 广告 上 点 击 率 较 高 的 人 群 。 虽 然 对 品牌 广告 而 言 ， 
点 击 率 未 必 总 是 合 理 的 评价 指标 ， 然 而 如 采 认 为 在 该 类 型 上 各 种 目的 
的 广告 均衡 存在 时 ， 点 击 率 仍然 具有 相对 的 衡量 意义 。 因 此 ， 可 以 把 
某 个 用 户 在 某 类 广告 上 的 点 击 量 作为 建 模 的 对 象 。 

由 于 点 击 行为 是 离散 到 达 的 随机 变量 ， 对 其 数量 最 自然 的 概率 描 
述 是 误 松 分 布 。 泪 松 分 布 的 形式 如 下 : 


pi(h) = At exp(- A) 
h! 

其 中 h 为 菜 个 用 户 在 某 个 定向 类 别 广告 上 的 点 击 量 加 ，t 代 表 菜 个 受 
众 标签 ， 而 和 为 相应 的 控制 点 击 行为 到 达 频 繁 性 的 参数 。 当 然 ， 直 接 比 
较 单 位 时 间 内 的 点 击 量 并 没有 太 大 的 意义 ， 这 里 的 点 击 量 是 单位 有 效 
展示 对 应 的 点 击 数 ， 关 于 如 何 计算 单位 有 效 展示 ， 可 以 参考 13.5.4 节 。 
行为 定向 模型 要 做 的 就 是 把 用 户 的 行为 与 频繁 性 参数 入 联系 起 来 。 如 果 
利用 线性 模型 联系 用 户 行为 和 入 ， 则 有 : 


N 
X. = 25. wis ze (b) (12.6) 


这 里 的 w= (w, e. wa) * 即 为 标签 t 对 应 的 行为 定向 模型 需要 优 
化 的 参数 ，n 表 示 不 同 的 行为 类 型 ， 如 搜索 、 网 页 浏览 、 购 买 等 。 此 处 
将 原始 行为 b 先 经 过 特征 选择 函数 x (b) ， 再 将 结果 作为 特征 用 在 模 
型 中 。 将 公式 12.6 代 入 公式 12.5， 就 得 到 行为 定向 的 整体 模型 。 

这 是 工程 上 一 种 非常 典型 的 建 模 思路 : 当面 对 一 个 多 自 变 量 的 回 
归 问 题 时 ， 可 以 先 根据 目标 值 的 特性 选择 合适 的 指数 族 分 布 来 描述 ， 
并 用 线性 模型 将 多 个 自 变量 和 指数 族 分 布 的 参数 联系 起 来 。 这 样 做 ， 
可 以 利用 线性 模型 更 新 简单 和 可 解释 性 强 的 特点 ， 同 时 又 对 目标 变量 
的 类 型 有 较 强 的 适应 性 。 这 种 建 模 方法 称 为 广义 线性 模型 《Generalized 
Linear Model，GLM) 。 有 关 广 义 线性 模型 的 一 般 性 讨论 可 以 参考 参考 
文献 [36] ° 

公式 12.5 的 行为 定向 模型 有 两 点 需要 特别 说 明 。 


(12.5) 


(1) w 可 以 是 与 标签 t+ 相关 的 ， 即 对 不 同 的 定向 标签 训练 不 同 的 
线性 函数 。 这 样 做 的 优点 是 可 以 更 准确 地 对 每 个 类 别 进行 建 模 ， 但 缺 
所 是 当 有 些 类 别 数据 不 足 时 估计 偏差 较 大 。 一 般 来 说 ， 当 w 与 标签 相 
天 时 ， 原 始 行为 也 可 以 考虑 经 过 一 个 与 标签 无 关 的 选择 函数 ， 因 为 类 
的 本 质 特征 已 经 反映 在 了 模型 参数 天 量 上 。 

(2) 这 种 建 模 方法 主要 适用 于 有 明确 需求 方 意义 的 标签 体系 ， 只 
有 广告 a 上 也 有 这 些 标签 才能 根据 其 点 击 行为 来 建 模 。 

有 关公 式 12.6 中 的 模型 参数 w 的 最 大 似 然 解 ， 需 要 多 次 访问 数据 迭 
代 求 解 。 具 体 的 求解 方法 并 不 复杂 ， 读 者 可 以 目 行 推 导 ， 也 可 以 进 一 
步 参考 参考 文献 [22]。 下 面 重点 讨论 的 内 容 是 如 何 选择 合适 的 行为 定向 
等 征 以 及 优化 相关 的 计算 过 程 。 


行为 定 加 特征 的 生成 过 程 有 两 点 需要 讨论 : 一 是 特征 选择 函数 x, 
的 确定 ， 二 是 公式 12.5 对 应 模型 的 训练 集 的 组 织 和 生成 方式 。 行 为 定向 
的 特征 生成 过 程 ， 由 于 样本 量 比较 大 ， 处 理 的 高 效 性 是 在 工程 中 主要 
考虑 的 问题 。 

最 常用 的 特征 选择 函数 x，(b) 是 将 一 段 时间 内 的 原始 用 户 行为 映 
射 到 确定 的 标签 体系 上 ， 同 时 计算 出 各 行为 在 对 应 标签 上 的 累积 强度 
作为 模型 的 特征 输入 。 例 如 ， 对 于 页 面 浏 览 行为 ， 我 们 用 上 下 文 定 同 
的 方法 将 URL 转 换 为 标签 ， 作 为 此 次 行为 的 标签 ， 而 一 次 浏览 的 强度 
置 为 1; 而 对 于 搜索 行为 ， 可 以 根据 查询 词 将 其 映射 为 标签 ， 而 一 次 搜 


索 的 强度 置 为 1。 关 于 搜索 、 广 告 点 击 、 网 页 浏览 等 各 类 行为 的 标签 化 
方法 还 将 在 后 面 专门 讨论 。 模 型 中 w, 的 作用 实际 上 就 是 在 调整 搜索 、 
浏览 等 不 同行 为 类 型 的 重要 程度 。 这 一 特征 生成 过 程 如 图 12-6 所 示 。 


用 户 行为 数据 CH t =) 2 i t=3, (A 


图 12-6 行为 定向 特征 生成 过 程 示 意 
这 里 要 注意 ， 我 们 考虑 的 是 “一 段 时 间 内 的 行为 ”， 因 为 过 于 久远 
的 行为 对 于 用 户 兴 趣 的 贡献 是 很 小 的 。 如 何 将 行为 昧 计 控制 在 一 段 时 
间 以 内 ， 工 程 上 有 两 种 常用 的 方法 ， 分 别 是 消 动 窗口 法 和 时 间 训 减 
法 ， 如 图 12-7 所 示 。 


在 滑动 窗口 法 中 ， 设 定 一 个 窗口 长 度 D， 然 后 将 从 当前 时 间 倒 推 
再 此 窗口 长 度 内 所 有 属于 t 的 行为 强度 累加 起 来 。 用 六 代表 款 积 特征 
以 区 别 于 单 时 间 片 特征 x， 实 际 上 在 公式 12.6 中 ， 应 该 使 用 xm Az 
Xx。 在 请 动 窗口 法 中 ，”x 的 计算 公式 为 : 


&(d)- Y. ed- i) (12.7) 


图 12-7 用 户 行为 累计 方法 示意 : 滑动 窗口 法 CE) ， 时 间 衰 减法 
CR) 

而 在 时 间 襄 减法 中 ， 并 不 明确 设 定 窗口 长 度 ， 而 是 设 定 一 个 衰减 
因子 a， 用 上 一 个 时 间 片 的 累积 特征 x (d-1) 与 本 时 间 片 的 行为 强度 
x (d) 递归 地 得 到 今天 的 累积 特征 六 (d) ， 其 更 新 公式 为 : 

z(d) = ad(d — 1) + a(d) (12.8) 

在 实际 的 行为 定向 建 模 中 ， 会 用 累积 特征 “x 蔡 代 单 时 间 搬 特征 
Xx。 上 面 的 两 种 素 积 特征 计算 方法 并 无 本 质 区 别 ， 它 们 对 原始 行为 过 滤 
的 窗 型 ， 前 者 为 矩形 ， 后 者 为 指数 形 ， 并 且 形 状 都 由 唯一 的 参数 来 控 
制 。 但 是 从 工程 角度 看 ， 我 们 更 推荐 使 用 第 二 种 方案 ， 因 为 在 这 种 方 
法 中 ， 只 需要 保存 累积 到 前 一 个 时 间 片 的 特征 和 当前 时 间 片 的 行为 强 
度 ， 空 间 和 时 间 复 杂 度 都 比较 低 。 


行为 定 同 的 训练 过 程 实际 上 束 古 调整 各 个 标 等 类 别 上 各 种 特征 权 
重 的 过 程 。 影 啊 训 练 结果 和 效率 的 因素 主要 有 了 两 个 。 

(1) 训练 集 的 长 度 。 一 般 来 说 ， 为 了 消除 工作 日 的 周期 性 影响 ， 
训练 集 的 天 数 一 般 选择 为 7 的 整数 倍 。 对 一 个 用 户 来 说 ， 他 系 积 到 前 一 


个 时 间 片 的 行为 特征 人 td) 和 本 时 间 片 的 该 标签 广告 点 击 次 数 h、(d) 
对 应 于 公式 12.5 的 一 个 训练 样本 。 因 此 ， 每 个 用 户 会 对 应 多 个 训练 样 
Jo 

(2) 时 间 卢 的 大 小 。 这 反映 了 对 定向 的 时 效 性 的 要 求 ， 如 果 和 希望 
更 快 地 利用 行为 数据 对 标 釜 做 出 调整 ， 必 然 要 缩小 这 一 时 间 片 大 小 是 。 

可 以 想见 ， 训 练 集 的 样本 数目 正比 于 训练 集 长 度 且 反比 于 时 间 厂 
长 度 。 当 用 户 数目 较 多 、 训 练 集 长 度 较 长 ， 而 时 间 片 又 较 短 时 ， 总 的 
训练 样本 数目 古 非 第 大 的 。 为 了 避免 计算 见 余 ， 使 训练 时 的 空间 代价 
尽 可 能 小 ， 在 参考 文献 [22] 中 作者 给 出 了 一 个 复杂 度 为 O (ln) 的 训 
练 样本 生成 算法 ， 该 算法 的 关键 点 十 在 预 处 理 过 程 中 生成 每 个 用 户 u 
各 个 时 间 厂 的 x, 和 h， 将 它们 按时 间 顺 序 排列 成 一 个 事件 流 。 通 过 在 此 
事件 流 上 回 前 滑动 ， 依 次 在 训练 过 程 中 得 到 各 个 时 间 片 的 累积 特征 X,， 
并 得 到 相应 的 训练 样本 。 

这 一 方法 看 起 来 普通 ， 却 是 在 大 规模 用 户 行为 分 析 时 必须 要 注意 
的 ， 也 是 计算 广告 架构 (图 9-2) 中 提 到 要 将 用 户 行为 与 用 户 标识 作为 
键 组织 在 一 起 的 原因 。 以 时 间 衰 减法 为 例 ， 我 们 将 素 积 行为 定向 特征 
生成 的 过 程 用 下 面 的 代码 示意 。 


// In: 

// events : 各 时 间 片 的 原始 特征 
// alpha : &ART 

// Out: 

// features ;全 时 间 片 的 累积 特征 


int btSampleGen(vector<Vec> & events, int T, vector<Vec> & features) { 


int numSlice = events.size(); 


int dim = events[(0].size(); 


features. resize (numSlice); 
features [0] = events [0]; 
for (int s = 1; s < numSlice; s ++) { 
features[s] = features[s - 1]; 
for (int d= 0; d < din; d ++) ( 
features[s][d] *= alpha; 
features[s][d] += events[s] [d]; 


各 类 行为 的 标签 化 方法 
上 面 关 于 行为 定向 特征 生成 的 讨论 还 缺少 一 个 环节 : 特征 选择 函 
Bix, (b) 的 计算 方法 ， 即 搜索 、 广 告 点 击 、 网 页 浏览 等 行为 映射 到 一 


个 或 多 个 定 同 标签 上 。 这 十 行为 定 癌 计算 过 程 中 最 关键 的 环 人 ， 下 面 
介绍 工程 中 的 实用 方案 。 

(1) 网 页 浏览 、 分 享 等 与 内 容 相关 的 行为 可 以 通过 12.2.2 节 中 提 
到 的 有 监督 文本 主题 模型 的 方法 ， 将 其 映 冉 到 预 完 定 义 好 的 标签 体系 
上 ， 也 可 以 直接 提取 内 容 中 的 关键 词 作 为 标签。 

(2) 广告 点 击 等 与 广告 活动 相关 的 行为 可 以 转化 为 对 广告 落地 页 
内 容 的 分 析 ， 因 此 可 以 使 用 与 网 页 浏 吕 相同 的 方法 。 不 过 ， 实 践 中 经 
常会 页 到 广告 落地 页 内 容 为 图 片 、Flash 或 者 内 容 很 少 的 情形 。 因 此 ， 
根据 创意 形式 的 不 同 ， 还 有 其 他 两 种 方法 ， 当 创意 为 文字 链 时 ， 可 以 
将 其 题目 或 描述 作为 内 容 ; 当 创意 为 图 片 时 ， 往 往 需 要 人 工 标注 其 标 
签 ， 但 由 于 工作 量 较 大 且 正 确 性 不 宜 评估 ， 建 议 只 在 必要 时 进行 。 

(3) 最 值得 重视 的 是 搜索 、 搜 索 点 击 等 与 查询 相关 的 行为 。 由 于 
查询 的 信息 量 较 少 ， 很 难 直接 提取 标签 。 可 行 的 方案 有 两 种 ， 都 要 用 
到 搜索 引擎 : 第 一 种 方案 是 利用 搜索 引擎 做 内 容 扩展 ， 即 将 查询 送 入 
搜索 引擎 ， 用 返回 的 大 干 结果 描述 或 者 链接 页 的 内 容 作为 该 查询 对 应 
的 内 容 ， 这 种 方案 借助 通用 搜索 引擎 即 可 ;第 二 种 方案 是 对 查询 进行 
某 垂 直 领 域 分 类 时 ， 直 接 利 用 相应 垂直 媒体 的 标 丛 体系 和 搜索 引擎。 
下 面 以 电 丙 行业 为 例 来 说 明 此 方案 。 

如 条 要 给 得 询 标注 电 商行 业 标签， 可 以 采用 与 某 综合 电 商 ， 如 淘 
择 ， 相 一 致 的 分 类 标签 体系 。 在 此 基础 上 ， 任 给 一 个 查询 ， 将 其 送 入 
淘宝 的 搜索 3 引擎， 然后 查看 返回 商品 结 琳 对 应 的 分 类 ， 将 此 分 类 作为 


标签 即 可 。 如 末 返 回 结 采 很 少 或 结果 中 的 分 类 很 分 散 ， 可 以 认为 此 查 
询 没 有 合适 的 电 商 行业 标签 。 这 实际 上 是 借鉴 了 电 商 搜索 引擎 成 熟 的 
分 类 能 力 ， 往 往 可 以 较 快 地 做 到 比较 准确 的 查询 分 类 。 此 方法 的 限制 
征 必 须 采 用 与 某 电 商 一 致 的 标签 体系 ， 不 过 一 般 来 说 这 不 是 大 问题 。 
这 个 例子 虽然 针对 电 商 行业 ， 但 对 于 其 他 垂直 行业 ， 如 汽车 、 房 产 
也 完全 适用 ， 只 要 借助 于 该 行业 网 站 比较 成 熟 的 垂直 搜索 引擎 即 
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(4) 转化 、 预 转化 等 需求 方 行为 往往 可 以 对 应 到 一 个 单 品 。 同 

样 ， 利 用 该 单 品 的 分 类 信息 可 以 将 其 映射 到 有 茶 个 标签 上 ， 而 对 于 预 较 
化 中 的 站 内 搜索 行为 ， 可 以 按照 上 面 的 一 般 搜 索 行 为 来 处 理 。 

这 几 类 典型 行为 的 标签 化 过 程 如 图 12-8 所 示 。 对 于 其 他 的 行为 ， 往 

往 也 可 以 归结 到 这 几 种 类 型 之 一 ， 或 者 根据 其 行为 数据 的 特点 具体 讨 


论 。 
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图 12-8 各 类 行为 标签 化 方法 示意 


BAAN 12.5 的 行为 定 癌 模型 看 起 来 比较 复杂 ， 不 过 其 核心 目的 
无 非 是 为 了 通过 数据 得 到 公式 12.6 中 的 行为 系数 w,。 在 行为 定 癌 的 决策 
过 程 中 ， 不 需要 A 到 h 的 泊 松 分 布 ， 只 需要 计算 线性 函数 的 值 ， 然 后 根 
据 预 完 确 定 的 羡 值 来 确定 某 个 用 户 是 否 应 该 被 打上 某 个 定 问 标签。 

行为 定向 计算 过 程 比 训练 过 程 的 数据 准备 要 简单 ， 因 为 不 再 需要 
准备 目标 值 ， 只 需要 按照 滑动 窗口 法 或 者 时 间 肥 减法 得 到 累积 特征 


Ltn» 再 根据 w, 加 权 求 和 得 到 得 分 人 。 由 于 这 一 计算 过 程 也 是 线性 的 ， 


当 特征 累积 采用 时 间 衰 减法 时 ， 得 分 入 也 可 以 通过 昨天 的 得 分 衰减 后 
索 积 上 今天 得 分 的 方式 得 到 ， 寻 |: 


A(d)- 5 wnain(d—1)+ Y wnrimn(d) 
-oX(d- 1) - 3. wntin(d) 


上 上 面 的 公式 揭示 了 受众 定 癌 系统 工程 实现 的 一 个 关键 点 :在线 上 
存储 各 用 户 的 定向 标签 得 分 和 的 缓存 中 ， 在 每 个 新 的 时 间 周 期 ， 在 绥 
存 中 得 分 乘 以 a 进行 衰减 ， 再 将 上 一 个 时 间 周 期 收集 到 的 原始 行为 x, 加 
权 求 和 后 累加 上 去 即 可 。 这 比 起 在 每 个 时 间 周 期 重 痢 计算 所 有 和 并 更 新 
整个 线 上 缓存 显然 要 轻 量 级 许多 。 这 一 线 上 计算 过 程 更 加 体现 了 时 间 
衰减 法 的 优势 ， 特 别 是 当 需 要 对 用 户 的 短 时 行为 进行 快速 反馈 时 ， 这 
样 倘 便 的 递归 式 计算 方法 非常 有 效 。 


(12.9) 


对 于 上 面 讨论 的 行为 定 同 模型 ， 因 为 可 以 通过 调整 线性 函数 输出 入 
的 国 值 来 控制 示 个 标签 人 群 的 量 ， 相 应 的 标签 人 群 在 广告 投放 中 的 歼 
果 也 会 相应 变化 。 当 然 ， 在 量 扩大 的 情况 下 一 般 来 说 精准 性 也 会 降 
低 。 其 他 形式 的 行为 定 同 模型 也 都 具有 类 似 的 特点。 因此 ， 行 为 定 同 
模型 的 评测 需要 考虑 到 量 的 影响 。 

一 般 来 说 ， 行 为 定向 可 以 通过 reacMCTR 曲 线 来 进行 半 定 量 的 评 
测 。 在 正常 情况 下 ， 较 小 的 人 群 规模 应 该 较为 精准 ， 也 即 对 该 类 型 广 
告 的 CTR 较 高 ;而 随 着 人 群 规模 的 扩大 ， 该 CTR 也 会 逐渐 走低 。 我 们 


把 标签 接触 到 的 人 群 规模 称 为 reach， 而 这 一 reach 和 CTR 构 成 的 曲线 
是 评价 该 标签 上 的 定向 是 否 合理 、 以 及 效果 如 何 的 重要 依据 。 

图 12-9 给 出 了 一 个 实际 的 reach/CTR 曲 线 示例 ， 我 们 来 了 解 一 下 解 
读 此 曲线 的 几 个 关键 之 处 。 首 先 ， 该 曲线 应 该 大 体 呈 下 降 的 趋势 ， 如 
果 数 据 质量 或 定向 建 模 有 一 些 问题 ， 有 时 会 出 现 非 下 降 的 趋势 或 者 头 
部 较 低 的 情况 ， 这 意味 着 调 低 用 户 规模 反而 使 得 点 击 紊 下降， 显然 是 
不 正常 的 。 如 果 出 现 这 种 情形 ， 需 要 认真 检查 定向 流程 或 者 判断 是 否 
已 有 的 数据 无 法 文 持 该 定向 标签 。 其 次 ，reachMCTR 曲 线 最 右 端 一 个 点 
的 CTR 水 平 是 固定 的 ， 即 无 法 通过 改善 数据 和 模型 来 提高 ， 因 此 这 是 
reach 达 到 100%， 也 即 全 部 用 户 的 情形 下 的 CTR 水 平 。 该 曲线 的 斜率 越 
大 ， 往 往 表 示 定 向 模型 的 鉴别 力 越 强 。 由 于 实际 中 一 般 会 将 阔 值 设 定 
得 较 高 ， 从 而 达到 较 好 的 定向 效果 ， 因 此 往往 只 需要 关注 该 曲线 头 部 
的 部 分 即 可 。 
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图 12-9 reach/CTR 曲 线 示意 


工程 中 需要 注意 的 是 ， 生 成 reach/CTR 曲线 的 过 程 需要 仅仅 访问 
一 裔 数据 就 能 完成 。 因此， 在 前 面 受 众 定 问 的 过 程 中 ， 需 要 保留 的 是 
每 个 用 户 在 各 个 标签 上 的 得 分 值 ， 而 不 是 最 后 二 元 的 判断 结果 。 给 定 


一 批 测 试用 户 在 所 有 标签 上 的 定 癌 得 分 值 ， 生 成 reach/CTR 曲 线 的 过 程 
如 下 面 的 代码 所 示 。 
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struct Imp {int click; int userId; double score;}; 
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In: 
imps : 各 次 展示 的 数据 集 
binlum ; reach/CTR 曲 线 约 点 数 
Out: 
reachs : 各 点 的 reach 
ctrs ; 各 点 的 CTR 


id reach_ctr(vector<Imp> &imps, int binNum, Veckreachs, Veckctrs){ 


int sampleNum = (int)imps.size(); 


// 遍历 所 有 的 样本 以 得 到 分 数 的 最 小 值 和 最 大 值 
double minScore = INF, maxScore = -INF; 
for (int s = 0; s < sampleNum; s ++) i 
if (irps[s].score € minScore) minScore = imps[s].score; 


if (imps[s].score > maxScore) maxScore = imps[s].score; 


// ABS bind) BA 
Vec bins; 
double step = (maxScore - minScore) / binNum; 
bins.assign(binNum + 1, minScore); 
for (int b = 0; b < binNum; b ++) 
bins[t + 1] = bins[b] + step; 


// 再 次 遍历 样本 以 得 到 各 个 bia 上 的 reach 和 点 击 数 目 


Vec reachClicks; 


reachClicks.assign(binNum, 0); 
reachs.assign(binNum, 0); 
ctrs.assign(binNum, 0); 
for (int s = 0; s < sampleNum; s ++) i 
for (int b = 0; b < binNum; b ++) { 
if (imps[s].score < bins[b]) break; 
if (imps[sl.click) reachClicks[b] ++; 


reachs [b] ++; 


// 计算 reach 和 CTR 
for (int b = 0; b « binNum; b **) ( 
ctrs[b]-» reachClicks[b] / reachs[b]; 


reachs[b] /= sampleNum; 


12.4 人 口 属 性 预测 


严格 来 说 ， 年 龄 、 性 别 、 教 育 程 度 、 收 入 水 平等 人 口 属 性 并 不 属 
于 用 户 的 兴趣 ， 而 是 用 户 确定 的 特点 描述 。 不 过 在 实际 定 回 广告 系统 
中 ， 除 了 一 些 实名 的 社交 网 络 以 外 ， 规 模 化 地 获得 人 口 属性 比较 困 
难 ， 因 此 往往 还 是 需要 数据 驱动 的 模型 ， 以 用 户 的 行为 为 基础 自动 预 
测 其 人 口 属 性 。 

这 种 基于 预测 的 方法 直觉 上 很 容易 理解 ， 以 性 别 属 性 为 例 : 经 党 
访问 军事 网 站 或 汽车 网 站 的 用 户 绝 大 部 分 都 是 男性 ; 经常 浏览 娱乐 八 
卦 的 用 户 则 以 女性 居多 。 人 性 别 属 性 预测 的 问题 可 以 描述 成 一 个 典型 的 
二 分 类 问题 ， 其 输入 特征 就 是 用 户 的 原始 行为 。( 或 者 提取 后 的 行为 特 
征 x) ， 而 输出 就 是 {M 〈 男 ) , F CX) } 两 个 分 类 。 有 很 多 机 器 学 习 
模型 都 可 以 用 于 性 别 预测 问题 ， 比 如 采用 最 大 后 验 概率 的 框架 ， 则 预 
测 问题 可 以 表示 成 : 

9 = arg maxyge{M,r} P(g|b) (12.10) 

其 他 的 模型 ， 如 支持 向 量 机 (Support Vector Machine, SVM) "+ 
AdaBooste 等 ， 都 可 以 考虑 ， 需 要 根据 自己 的 数据 特点 具体 判断 哪 种 模 
型 更 合理 。 

建 模 中 有 两 个 问题 需要 注意 : 首先 ， 不 论 用 什么 样 的 模型 来 预测 
人 口 属性 ， 必 须要 有 一 定 的 拒 识 门 覃 ， 也 束 是 说 对 那些 行为 不 够 丰富 
或 不 够 有 代表 性 的 用 户 应 该 输出 “未 知 ” 的 判断 ， 而 不 是 简单 地 用 模型 
算出 一 个 结果 ; 其 次 ， 模 型 训练 集 的 获得 非常 重要 ， 往 往 算 法 的 有 效 


性 不 如 更 准确 、 规 模 更 大 的 训练 集 对 结果 的 提升 明显 。 较 大 训练 集 的 
获得 往往 是 要 依赖 社交 网 络 ， 比 如 可 以 将 广告 系统 的 用 户 身 份 与 微 博 
用 户 对 应 ， 再 从 微 博 公开 的 用 户 属 性 获得 标注 。 

除了 性 别 以 外 的 其 他 人 口 属 性 用 简单 的 分 类 模型 并 不 太 准 确 。 以 
年 龄 为 例 ， 假 设 我 们 把 标签 设 定 成 五 个 年 龄 段 ， 那 么 将 第 一 个 年 龄 段 
的 认错 分 到 第 二 个 年 龄 段 与 错 分 到 第 三 个 年 龄 段 的 代价 应 该 是 不 同 
的 ， 而 如 末 采 用 简单 的 5 个 类 的 分 类 模型 ， 这 一 大 别 束 倍 名 略 了 。 因 
此 ， 需 要 在 分 类 模型 中 明确 考虑 不 同类 之 间 的 错 分 代价 ， 其 他 的 属性 
如 教育 程度 、 收 入 水 平 也 类 似 。 不 过 总 体 上 说 ， 从 用 户 行为 上 预测 非 
性 别 的 人 口 属性 十 比较 困难 的 任务 ， 除 非 有 非常 相关 的 数据 来 源 以 及 
充分 多 的 准确 的 训练 样本 ， 否 则 不 太 建 议 用 这 种 方法 获得 这 些 标签 。 


12.5 理 平台 


第 6 章 介绍 了 数据 交易 平台 和 数据 管理 平台 这 两 种 与 广告 相关 的 
数据 产品 。 虽 然 这 些 数 据 产 品 主要 是 在 程序 化 交易 市 场 中 发 挥 作用 ， 
不 过 就 其 技术 以 构 来 说 ， 不 过 是 将 本 章 介绍 的 数据 收集 和 受众 定 同 功 
能 独立 出 来 ， 形 成 专门 的 产品 ， 因 此 ， 我 们 在 本 间 中 一 起 介绍 。 田 
Sh, 数据 管 理 平 台 和 数据 交易 平台 虽然 分 别 从 第 一 方 和 第 三 方 的 视角 
来 收集 和 加 工 数 据 ， 不 过 其 技术 架构 却 很 类 似 ， 而 且 在 实际 产品 中 分 
界 也 没有 那么 鲜明 ， 因 此 我 们 在 此 统一 以 数据 管理 平台 来 代表 。 


数据 管理 平台 的 系统 架构 如 图 12-10 所 示 。 通 过 部 署 在 媒体 上 的 代 

码 或 SDK 收 集 第 一 方 访问 日 志 ， 送 入 数据 高 速 公 路 。 同 时 通过 数据 高 
速 公 路 收集 目 有 的 第 二 方 数据 ， 人 然后 把 这 些 日 志 原 始 行为 映射 到 结构 

化 或 非 结构 化 的 受众 标签 体系 上 。 男 外 ， 还 会 有 一 些 第 三 方 提供 的 加 
工 好 的 标签 数据 直接 进入 用 户 标签 集 。 最 后 通过 统一 的 接口 对 外 提供 
标签 。 在 这 一 架构 中 ，DMP 同 时 对 搂 了 第 一 方 、 第 二 方 和 第 三 方 的 数 
据 ， 并 根据 这 些 数据 对 受众 群体 进行 灵活 的 、 目 定义 的 划分 。 虽 然 这 
些 功 能 并 不 直接 体现 在 广告 交易 环 季 中 ， 却 是 数据 驱动 的 在 线 广 告 中 
越 来 越 重要 的 一 环 。 

除了 需要 用 到 上 面 讨论 的 受众 定 同 技术 ，DMP 还 有 一 个 技术 问 
题 ， 即 如 何 将 用 户 标 签 传送 给 购买 方 ， 比 如 茶 DSP。 这 包括 两 个 环 
方 ， 一 十 用 户 身 份 对 应 ， 比 如 将 在 第 14 章 中 介绍 的 cookie 肌 射 ; 
数据 的 传 冲 方 式 。 图 12-10 中 的 数据 传 速 古 直 接 通 过 在 线 绥 存 的 形式 访 
问 ， 实 际 上 更 常见 的 方式 是 在 广告 交易 的 过 程 中 ， 附 着 在 询 价 请 求 上 
直接 提供 。 
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12.6 延伸 思考 


1. 移 动 互联 潜在 的 受众 定向 能 力 会 高 于 PC， 利 用 移动 互联 网 的 哪 
此 数据 可 以 加 工 出 哪些 与 PC 不 同 的 定 问 标签 ? 

2. 本 章 中 给 出 的 行为 定 癌 建 模 方法 比较 适合 于 那些 对 应 于 广告 主 分 
类 的 、 规 模 较 大 的 兴趣 标签 ， 对 于 其 他 无 法 明确 对 应 广告 主 分 类 或 规 


模 不 大 的 兴趣 标签 应 该 如 何 处 理 ? 
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图 12-10 数据 管理 平台 (DMP) 系统 架构 示意 


本 书 由 l'ePUBw.COM | 整理 ，ePUBw.COM 提 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


13 章 竞价 广告 核心 技术 


苋 价 交易 是 整个 在 线 广 告 市 场 最 关键 的 一 次 产品 进化 ， 同 时 也 市 
来 了 厂 告 技术 的 迅速 发 展 。 应 该 说 ， 苋 价 广告 使 得 当今 计算 广告 中 最 
关键 的 几 项 通用 技术 挑战 找到 了 适用 的 场景 ， 并 很 快 成 熟 起 来 。 本 章 
将 首先 给 出 实际 系统 中 各 种 机 制 设计 共 同 作用 时 的 竞价 逻辑 ， 然 后 介 
绍 搜索 广告 和 广告 网 络 这 两 种 典型 产品 的 技术 架构 和 优化 目标 以 及 其 
中 的 一 些 计算 问题 。 在 此 基础 上 ， 将 重点 介绍 范 价 广告 最 关键 的 几 项 
通用 技术 ， 特 别 是 广告 检索 和 eCPM 估 计 技 术 。 

在 竞价 广告 中 ， 大 量 中 小 广告 主 的 检索 规模 使 得 计算 的 效率 要 求 
很 高 ， 如 何 根据 广告 的 业务 要 求 设计 更 高 效 的 索引 和 检索 技术 是 竞价 
广告 系统 要 解决 的 关键 问题 。 我 们 将 结合 广告 检索 的 具体 需求 ， 重 点 
讨论 布尔 表达 式 检索 与 相关 性 检索 这 两 个 场景 下 的 算法 思路 。 

另外 ， 竞 价 广告 系统 还 需要 对 给 定 (a u.c) 组 合 上 的 eCPM 做 
尽 可 能 准确 的 估计， 由 于 大 量 中 小 广告 主 的 参与 ， 广 于 系统 对 eCPM 
的 估计 往往 面临 样本 不 足 的 情形 。 与 此 相关 的 点 击 率 预 测 和 探索 与 利 
用 两 个 问题 所 涉及 的 拉 术 也 十 苋 价 广告 系统 通用 的 关键 技术 。 扣 击 率 
预测 是 广告 系统 中 最 重要 的 机 紫 学 习 问 题 之 一 ， 由 于 面 对 的 数据 量 巨 
大 ， 如 何 高 效 地 设计 算法 以 减少 大 代 是 优化 中 要 考虑 的 关键 。 男 外 ， 


结合 广告 业务 的 特点 设计 有 效 的 特征 ， 让 点 击 率 模型 快速 捕捉 用 户 兴 
趣 的 动态 信号 是 提高 点 击 率 预 测 效 果 的 关键 。 

在 搜索 广告 中 ， 竞 价 标的 即 关键 词 的 粒度 很 细 。 因 此 ， 在 5.1 节 中 
介绍 的 查询 扩展 问题 至 关 重 要 。 查 询 扩展 可 以 看 成 是 一 个 关键 词 推荐 
问题 ， 但 也 需要 考虑 一 些 与 广告 领域 相关 的 特点 。 另 外 ， 搜 索 广 告 的 
北 区 广告 条 数 在 策略 上 存在 非常 大 个 性 化 调整 空间 ， 这 可 以 描述 成 一 
个 用 户 体验 约束 下 的 收入 优化 问题 。 

广告 网 络 中 的 反 作 弊 、 计 价 等 模块 ， 需 要 将 系统 日 志 快 速 加 工 处 
理 并 反馈 给 线 上 决策 系统 。 另 外 ， 对 用 户 行为 和 点 击 的 快速 反馈 对 广 
告 效 果 的 提高 帮助 很 大 。 这 些 准 实时 数据 处 理 需 求 催生 了 流 计 算 平 
人 台 。 流 计算 技术 与 Hadoop 等 离线 分 布 式 计算 技术 相配 合 可 以 更 有 效 地 
完成 计算 广告 中 的 数据 处 理 任务 。 


13.1 竞价 广告 法 


第 5 半 介 绍 了 搜索 广告 和 广告 网 络 这 两 种 最 典型 的 范 价 广告 产 
品 。 在 进入 这 些 具 体 产 品 的 技术 之 前 ， 我 们 先 来 了 解 “ 芝 价 ”这 一 核心 
逻辑 具体 的 实现 ， 顺 便 引 出 此 核心 逻辑 的 儿 项 主要 文 持 技术 。 
.2 方 介 绍 了 位 置 招 卖 市 场 中 一 些 第 用 的 定价 策略 ， 包 括 GSP ` 
MRP、 价 格 撞 压 等 ， 单 独 理 解 这 些 策略 部 不 困难 。 在 实际 的 系统 
需要 将 这 几 种 策略 综合 起 来 执行 。 以 按 CPC 计 价 的 竞价 广告 产品 中 一 


Ul 


次 广告 展示 为 例 ， 我 们 将 实际 的 计价 算法 用 下 面 的 代码 描述 ， 可 以 对 
照 表 5-2 进 一 步 直观 地 理解 此 完整 的 定价 过 程 。 
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Tur 
cands > 候选 广告 ID 
ctrs :o*GAJU SREH ARSE 
bids > RA Sek 
MRP : 市 场 保留 价 
squash  : tie? EAT 
slotNum : 要 求 的 广告 条 日 数 
Dui: 
results ”排序 结果 
prices  : 计价 结 采 


id auction(vector<int> & cands, Vec & ctrs, Vec & bids, 


float squash, int slotNum, vector<int> & results, Vec & prices) { 


int candNum = cands.size(); 


AV 按照 给 定 的 squashing 因 子 调整 预 信 CTR 
for (int c = 0; c « candNum; c ++) 


ctrs[c] = ctrsíc] squash; 
A] 计算 调整 后 的 eCPM 
Vec eCPMs; 
eCPMs.resize(candNum, 1e-101); 
for (int c = 0; c < candNur; c ++) 
if (bids[c] >= MRP) // 跳 过 那些 出 价 小 于 市 场 保留 价 的 任 选 
eCPMs[c] = ctrs[c] = bids[c]l; 


ZA 将 所 有 候选 按照 ecPHM 排 序 
for (int ci = 0; ci < candNum; ci ++) 
for (int c2 = ci + 1; c2 < candNum; c2 ++) 
if (eCPMs[ci] < eCPMs[c2]) t1 
SWAP (cands [ci], cands[c2]); 
SWAP (eCPMs[c1i], eCFPMs[c21); 
SWAP(Cctre [ci], ctrs [c2]); 


// 得 到 各 竞价 结果 并 计 工 定价 
results.clear(); prices.clear(); 
for (int c = 0; c < candNum - i; r ++) { 
if (eCPMs[c] <= 1e-1021) 
break; 


// 按照 SP 计算 定价 
float price = eCPMs(c + 1] / ctrsícl; 
if (price < MRP)price = MRP; 


results. push_back(cands[c]); 
prices. push „back (price); 


在 实际 的 广告 产 品 中 ， 还 有 可 能 同时 存在 奉 干 种 计 费 方式 ， 其 
eCPM 佑 算 过 程 也 不 同 ， 我 们 用 下 面 的 一 人 小段 代码 来 说 明 在 各 种 计 寓 方 
式 并 存 的 情况 下 完整 的 eCPM 计 算 逻 辑 。 当 然 ， 这 里 的 逻辑 比较 简单 直 
WL, ASR CPM 和 CPC 混合 范 价 的 担 卖 过 程 与 定价 机 制 的 探讨 可 以 进 一 
步 参 考 参 考 文献 [81] 。 


| jenum BidMode{CPM, CPC, CPS}; 

2 

3 |float calcuECPM(float bid, BidMode mode) { 
4 | switch (mode) { 

) case CPM: 

0 return bid; 

7 case CPC: 

8 return predictOtr() * bid; 

9 case CPC: 

10 return predictCtr() * predictClickValue(); 
l| 3 

12 |} 


从 定价 过 程 的 输入 可 以 看 出 ， 对 于 一 个 CPC 结 算 的 竞价 广告 系 
统 ， 需 要 先 得 到 广告 候选 集合 ， 并 计算 每 个 候选 的 点 击 率 ， 这 对 应 了 
竞价 广告 两 个 最 关键 的 计算 问题 : 广告 检索 和 广告 排序 ， 这 也 是 本 章 
要 讨论 的 重 皮 技术 问题 。 


竞价 广告 中 根据 ECPM 对 广告 进行 排序 ， 而 根据 2.3.1 节 的 介绍 ， 按 
照 点 击 和 转化 两 个 发 生 在 不 同 阶段 的 行为 ，eCPM 可 以 分 解 成 点 击 率 和 
点 击 价值 的 乘积 ，eCPM 的 估计 主要 驶 是 点 击 率 预 测 和 点 击 价值 估计 两 
个 任务 : 
r(a,u,c) = pa, u,c) + v(a, u) (13.1) 

点 击 率 h 是 广告 三 个 行为 主体 的 函数 ， 而 点 击 价值 则 是 用 户 u 和 广 
告 两 a 的 琅 数 。 在 CPC 计 算 的 竞价 广告 中 ， 点 击 价值 是 广告 主 的 出 价 ， 
不 需要 估计 。 在 分 别 介 绍 搜索 广告 和 广告 网 络 的 架构 和 技术 点 之 后 ， 
我 们 将 把 主要 篇 幅 放 在 广告 检索 和 点 击 率 预 测 这 两 项 核心 扩 术 上 。 


13.2 N 告 NAL 


搜索 广告 是 最 早产 生 的 ， 也 是 最 为 重要 的 竞价 广告 系统 。 搜 索 广 
i cu c ene ea ee 


max x Y ai, ci) : bidcpc(a;)] (13.2) 


这 个 目标 相对 简单 清晰 对 每 次 展示 的 各 个 候选 ， 根 据 查 询 估计 
其 点 击 率 h， 并 乘 以 广告 主 出 的 点 击 单价 得 到 eCPM， 再 按 此 排序 即 
可 。 而 在 eCPM 的 估计 过 程 中 ， 根 据 上 下 文 即 用 户 输 入 的 查询 来 决策 。 
搜索 广告 是 竞价 广告 中 最 典型 的 系统 之 一 ， 它 与 一 般 广 告 网 络 最 
主要 的 区 别 是 上 下 文 信息 非 稼 强 ， 用 户 标 签 的 作用 受到 很 大 的 限制 。 
搜索 广告 的 检索 过 程 一 般 都 不 考虑 用 户 u 的 影响 ， 而 上 下 文 信息 c, 


查询 ， 又 是 实 时 通过 用 户 输入 获得 ， 因 而 离线 受众 定 癌 的 过 程 基 本 可 
以 修 省 略 。 在 这 样 的 应 用 场景 下 ， 搜 索 广 告 的 系统 架构 如 图 13-1 所 
示 ， 它 与 一 般 的 竞价 广告 系统 染 构 的 主要 区 别 是 没有 上 下 文 和 用 户 标 
签 的 缓存 ， 但 是 其 检索 模块 由 于 查询 扩展 的 需求 ， 会 比 一 般 的 竞价 广 
告 系统 要 复杂 ， 并 且 在 排序 后 的 收益 优化 阶段 还 需要 进行 北 区 和 东区 
的 广告 放置 决策 。 

搜索 广告 算法 上 最 关键 的 技术 十 点 击 率 预测 ， 这 一 点 会 在 后 面 专 
门 讨 论 。 除 此 之 外 ， 搜 索 广 告 还 有 一 个 技术 上 的 重点， 那 惑 是 查询 词 
的 扩展 ， 即 如 何 对 人 简短 的 上 下 文 信息 进行 有 效 的 拓展 ， 由 于 搜索 广 乞 
的 变现 水 平 高 ， 这 样 的 精细 加 工 是 值得 而 且 有 效 的 。 


13.2.1 查询 扩展 


搜索 广告 中 查询 的 重要 性 极 高 ， 粒 度 又 非常 细 ， 如 何 根据 广 告 主 
需求 对 关键 词 进行 合理 的 拓展 对 于 需求 方 和 供给 方 来 说 都 有 很 大 意 
义 。 需 求 方 需要 通过 扩展 关键 词 获得 更 多 流量 ， 供 给 方 则 需要 借 此 来 
变现 更 多 流量 和 提高 竞价 的 激烈 程度 。 因 此 ， 查 询 扩 展 是 搜索 广告 的 
重要 技术 ， 它 主要 用 于 5.1.3 节 中 介绍 的 广泛 匹配 情形 下 。 搜 索 广 告 的 
查询 扩展 与 搜索 中 的 查询 扩展 既 有 相通 之 处 ， 又 有 一 些 显 著 的 区 别 。 
相关 的 方法 很 多 ， 在 此 只 介绍 3 种 主要 的 思路 。 
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图 13-1 搜索 广告 系统 架构 示意 
1. 基 于 推荐 的 方法 
如 果 把 用 户 一 个 会 话 (sesion) 内 的 查询 (query) 视 为 目的 相同 
的 一 组 活动 ， 可 以 在 {session，query} 和 矩阵 上 通过 推荐 技术 产生 相关 的 
关键 词 。 这 种 方法 利用 的 是 搜索 的 日 志 数 据 ， 而 基本 上 个 性 化 推荐 领 


域 的 各 种 思路 和 方法 都 可 以 适用 。 以 查询 扩展 的 问题 为 例 介绍 一 下 推 
荐 技术 的 基本 问题 。 

给 定 一 组 用 户 会 话 s={1，…，M} 和 一 组 关键 词 w={1, =, N}, 
可 以 产生 一 个 对 应 的 交互 强度 怎 阵 {X,}。 如 果 其 中 某 个 用 户 搜索 过 
某 个 关键 词 ， 则 和 矩阵 相应 的 元 素 就 置 为 一 个 相应 的 交互 值 ， 比 如 该 用 
户 在 一 段 时 间 内 搜索 过 该 词 的 次 数 。 

显然 ， 这 个 矩阵 中 大 多 数 单元 都 是 空白 ， 但 这 并 不 意味 着 用 户 搜 
索 该 词 的 可 能 性 为 零 。 而 推荐 的 基本 任务 就 是 根据 这 个 矩阵 中 己 知 的 
元 素 值 去 尽 可 能 预测 性 地 填充 那些 历史 上 没有 观测 到 的 单元 。 类 似 的 
场景 除了 搜索 ， 还 广泛 出 现在 各 种 互联 网 应 用 当中 ， 比 如 商品 的 浏览 
或 购买 记录 以 及 在 线 电 影 的 打分 记录 都 可 以 抽象 出 类 似 的 交互 强度 甜 
阵 以 及 相应 的 推荐 问题 。 这 样 根 据 群 体 用 户 的 选择 关联 性 进行 推荐 的 
问题 也 被 称 为 协同 过 滤 (Collaborative Flittering, CF) 问题 。 

基于 协同 过 滤 的 推荐 问题 有 非常 多 的 算法 ， 它 们 可 以 分 为 基于 内 
存 的 非 参数 化 的 方法 和 基于 模型 的 参数 化 方法 。 后 者 是 用 维 数 较 低 的 
空间 概要 性 地 刻画 交互 矩阵 ， 然 后 根据 该 空间 的 生成 参数 恢复 矩阵 里 
未 知 的 值 。 这 种 将 空间 降 维 的 思路 与 文档 主题 模型 乍 看 起 来 很 相似 ， 
不 过 问题 本 吴 还 是 有 明确 的 区 别 : 在 推荐 问题 中 ， 应 该 把 那些 未 观测 
到 的 交互 单元 视 为 未 知 ， 而 在 文档 主题 模型 中 ， 合 理 的 方法 是 认为 未 
在 某 文档 中 出 现 的 词 交 互 强度 为 0。 关 于 推荐 算法 的 综述 可 以 参考 [58， 
68] 等 文献 。 


各 种 推荐 方法 的 本 质 都 是 对 (x, JL, 窍 阵 进行 平滑 ， 从 而 将 x,, 变 


成 平滑 后 的 值 mn。 为 什么 可 以 利用 推荐 的 方法 进行 关键 词 扩展 呢 ? 
对 某 一 个 关键 词 w, 来 说 ， 其 原始 的 交互 强度 矢量 (x,, s Xw) > R 
然 我 们 也 可 以 根据 两 个 关键 词 对 应 矢量 的 相似 度 来 找到 近似 的 天 键 
词 ， 不 过 由 于 其 元 素 过 于 稀疏 ， 这 一 方法 在 实用 中 往往 不 可 行 。 在 经 


过 了 推荐 算法 的 平滑 以 后 ， 这 一 矢量 变 成 (Z4n TMn), 
量 中 的 未 知 元 素 也 都 被 填充 上 相对 合理 的 值 ， 于 是 就 可 以 稳健 地 比较 
关键 词 的 相似 度 。 

2 基于 主题 模型 的 方法 

除了 利用 搜索 的 日 志 数 据 ， 也 可 以 利用 一般 的 文档 数据 进行 查询 
扩展 。 这 类 方法 实质 上 就 是 利用 文档 主题 模型 对 某 个 查询 拓展 出 主题 
相似 的 其 他 查询 。 关 于 文档 主题 模型 的 介绍 可 以 参考 12.2.2 节 。 

在 主题 模型 的 描述 下 ， 每 个 词 w 都 可 以 对 应 于 一 个 文本 主题 组 成 
的 矢量 {z n.o nj 。 于 是 ， 也 可 以 用 两 个 词 对 应 的 主题 矢量 来 计 
算 它们 相似 度 。 这 种 方法 与 上 -种 方法 相 比 ， 主 要 考虑 的 是 语意 上 的 
相关 性 ， 而 非 用 户 意图 上 的 相关 性 ， 因 此 效果 会 差 一 些 ， 只 能 作为 用 
户 搜索 行为 数据 不 足 时 的 补充 方法 。 

3. 基 于 历史 效果 的 方法 

对 搜索 广告 而 言 ， 还 有 一 类 查询 扩展 方法 很 重要 ， 那 就 是 利用 广 
告 本 身 的 历史 eCPM 数 据 来 挖掘 变现 效果 较 好 的 相关 查询 。 由 于 在 广告 
主 选 择 竞价 的 关键 词 时， 一 般 来 说 都 会 选择 多 组 ， 如 果 从 历史 数据 中 


发 现 ， 某 些 关 键 词 对 某 些 特定 广告 主 的 eCPM 较 高 ， 那 么 应 该 将 这 些 效 
琳 较 好 的 查询 组 记录 下 来 ， 以 后 当 男 一 个 广告 主 也 选择 了 其 中 的 某 个 
天 键 词 时 ， 可 以 根据 这 些 历史 记录 ， 目 动 地 扩展 出 其 他 效 琳 较 好 的 碍 
询 。 

虽然 这 种 方法 得 到 的 扩展 结果 经 常会 与 前 两 种 方法 得 到 的 结果 相 
重合 ， 不 过 由 于 这 种 方法 直接 使 用 广告 的 优化 目标 ， 即 eCPM 来 指导 
查询 扩展 ， 往 往 能 够 成 为 前 两 种 方法 非常 重要 的 补充 手段 ， 而 且 对 所 
高 营 收 起 到 的 效果 往往 还 要 好 于 前 面 的 两 种 方法 。 


13.2.2 广告 放置 


如 5.1.3 节 中 讨论 的 ， 广 告 放 置 指 的 是 搜索 引擎 广 告 中 确定 北 区 和 
东区 广告 条 数 的 问题 。 考 虑 到 用 户 体验 ， 需 要 对 北 区 广告 的 数量 进行 
限制 ， 因 此 ， 这 是 一 个 典型 的 带 约束 优化 的 问题 ， 约束 是 系统 在 一 段 
时 间 内 整体 的 北 区 广告 条 数 ， 而 优化 的 目标 则 是 搜索 广告 系统 的 整体 
营 收 。 在 进行 广告 放置 之 前 的 排序 过 程 中 ， 比 较 的 都 是 单条 广告 的 
eCPM， 不 过 此 处 的 优化 需要 处 理 一 组 广告 ， 并 且 需 要 考虑 位 置 因素 ， 
此 问题 可 以 表达 如 下 : 


T nj Nite; 
max X P2 rins d N+) - cue RR )] 
tat 二 s—nij pr 
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其 中 m 和 分别 表示 第 i 次 展示 的 北 区 和 东区 广告 条 数 。 在 eCPM 
的 表达 r 中 ， 多 了 一 个 表示 位 置 的 参数 加 ， 例 如 ，N. 表示 北 区 的 第 s 个 
位 置 ，E 表示 东区 的 第 s 个 位 置 。C 为 北 区 的 平均 广告 条 数 上 限 。 显 
然 ， 调 整 北 区 广告 准 入 的 一 些 指标 ， 如 MRP、 相 关 性 、 质 量度 等 ， 都 
会 影响 此 问题 的 解 。 为 了 不 使 表达 过 于 复 沫 ， 这 些 参数 在 公式 13.3 中 没 
有 显 式 出 现 ， 但 读者 可 以 很 容易 地 在 实际 系统 中 找到 它们 的 作用 并 模 
拟 其 有 影响。 显然， 这 个 问题 形式 上 不 古 可 导 的 ， 而 且 要 调整 的 参数 也 
不 太 多 ， 可 以 采用 10.2.2 广 中 介绍 的 下 降 单 纯 形 法 求解 。 

搜索 广告 虽然 不 宜 进 行 深 入 的 个 性 化 ， 但 在 广告 放置 问题 上 存在 
着 很 大 的 个 性 化 空间 。 不 同 用 户 对 于 广告 接受 和 容忍 的 程度 有 着 很 大 
的 不 同 ， 实 际 上 ， 即 使 在 北美 这 样 的 用 户 教育 水 平 较 高 的 市 场 上 ， 也 
至 少 有 30%~40% 的 用 户 不 能 完全 分 辨 搜索 结果 和 广告 。 因此， 对 不 同 
的 用 户 动 态 调整 北 区 的 条 目 数 可 以 使 得 在 北 区 平均 广告 数目 相同 的 约 
束 下 ， 整 体系 统 的 营 收 有 显著 的 提高 。 在 考虑 单个 用 户 的 广告 接受 程 
度 后 ， 我 们 可 以 对 公式 13. 中 的 收入 作 个 性 化 的 调整 。 例 如 ， 对 于 北 
区 的 一 个 广告 展示 ， 改 成 下 面 的 形式 : 


(ais, uj, ci, Ns) = r(ais, ci, Nu 万 (13.3) 


这 里 的 从 (Ui) 和 五 分 别 表示 用 户 u 对 北 区 广告 的 平均 点 击 率 和 
所 有 用 户 对 北 区 广告 的 平均 点 击 率 。 在 计算 点 击 率 的 过 程 中 需要 对 北 
区 不 同位 置 的 点 击 做 归 一 化 ， 并 且 需 要 做 平滑 ， 参 考 13.5.4 节 。 用 于 
换 公式 13.3 中 的 r 后 ， 可 以 用 同样 的 框架 求解 


13.3 广告 网 络 


广告 网 络 是 除了 搜索 广告 以 外 最 重要 的 非 实时 苋 价 类 广告 产品 。 
由 于 没有 了 明确 的 用 户 意 图 以 及 展示 位 置 的 固定 性 ， 像 查询 扩展 、 广 
告 放置 等 问题 在 广告 网 络 中 并 不 人 存在。 下面 看 一 下 广告 网 络 的 优化 目 
标 、 系 统 架构 以 及 短 时 行为 反馈 等 问题 。 

广告 网 络 的 优化 目标 在 公式 2.2 的 基础 上 有 所 调整 ， 可 以 用 下 式 来 
表达 : 


T 
max > uai, ui, ci) : bidepc(a;)) (13.4) 
QT T il 
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Ak e P. 而 收入 部 分 是 比较 典型 的 根据 “a given user in a given 
context”， 求 “suitable ad" 的 过 程 ， 即 根据 给 定 的 用 户 和 上 下 文 求 合适 的 
广告 的 过 程 ， 这 也 反映 了 计算 广告 决策 的 核心 逻辑 。 

广告 网 络 的 典型 系统 架构 如 图 13-2 所 示 ， 其 中 广告 投放 的 决策 流程 
JJ: 服务 万 接收 前 端 用 户 访问 触发 的 广告 请 求 ， 首 移 根 据 上 下 文 信息 
和 用 户 吴 份 标识 从 页 面 标签 和 用 户 标 签 中 得 出 相应 的 上 下 文 标签 和 用 
户 标 签 ; 然后 用 这 些 标签 以 及 其 他 一 些 广告 请 求 条 件 从 广告 索引 中 找 
到 符合 要 求 的 广告 候选 集合 ; 最 后 ， 利 用 CTR 预 估 模 型 计算 所 有 的 广 
告 候选 的 CPM， 再 根据 eCPM 排序 选 出 赢得 竞价 的 广告 ， 并 返回 给 前 
端 完成 投放 。 


从 离线 计算 的 流程 来 看 ， 广 告 网 络 需要 根据 广告 投放 的 历史 展示 
和 点 击 数 据 对 点 击 率 预测 进行 建 模 。 当 然 ， 实 际 的 广告 网 络 也 往往 需 
要 同时 提供 受众 定向 的 功能 ， 因 此 这 部 分 离线 计算 也 需要 进行 。 不 过 
由 于 我 们 只 给 出 最 核心 的 功能 块 ， 因 此 没有 强调 这 一 部 分 

由 于 广告 网 络 广 泛 采 用 CPC 计 费 ， 准 实时 的 计 费 和 点 击 反 作 况 功 
能 是 必 不 可 少 的 ， 男 外 ， 将 用 户 行 为 尽快 反馈 到 广告 决策 中 对 于 点 击 
率 预 估 和 受众 定向 的 效果 提升 也 非常 关键 。 这 些 需求 共同 催生 了 流 计 
算 技术 ， 这 一 技术 被 广泛 应 用 于 短 时 受众 定向 和 短 时 用 户 行为 反馈 。 

短 时 行为 反馈 与 流 计算 

里 然 用 户 行为 定向 不 适用 于 搜索 广告 ,但 是 用 户 在 一 个 会 话 内 的 
一 系列 查询 如 果 能 够 快速 处 理 ， 还 是 会 对 准确 理解 用 户 意 图 有 帮助 。 
除了 这 样 的 短 时 用 户 行 为 反馈 ， 在 广告 业务 中 还 有 以 下 一 些 需 要 快速 
对 在 线 日 志 进 行 处 理 的 场景 。 


HAE 
V foh 


ERRAN 


| 人 
À A 


eat 


图 13-2 广告 网 络 系统 架构 示意 
(1) 实时 反 作 弊 。 反 作 竞 是 所 有 广告 系统 都 需要 的 模块 ， 关 于 反 
作 肯 具 体 的 技术 将 在 第 15 章 中 介绍 。 在 ADN、DSP 这 类 依赖 于 站 外 流 
量 的 广告 产品 中 ， 故 虫 流 量 、 突 发 的 作弊 流量 都 会 对 广告 主 预算 产生 


巨大 的 影响 。 因 此 ， 在 所 有 需要 实时 数据 处 理 的 模块 之 前 ， 需 要 一 个 
实时 反 作 浆 的 模块 ， 对 系统 产生 的 日 志 进 行 过 滤 。 

(2) 实时 计 费 。 广 告 产品 需要 一 个 实时 计 费 的 模块 ， 以 便 将 那些 
预算 消耗 完 的 广告 及 时 下 线 ， 和 避免 系统 损失 。 

(3) 短 时 用 户 标 签 。Hadoop 上 计算 用 户 标签 t (u) 往往 需要 比 
较 长 的 更 新 周期 ， 如 每 天 。 而 及 时 利用 用 户 分 钟 级 别 的 行为 数据 加 工 
用 户 短 时 兴趣 的 标签 ， 被 证 明 对 广告 效果 帮助 很 大 号 。 这 种 短 时 用 户 标 
签 也 需要 一 种 数据 准 实时 处 理 的 工具 。 

(4) 短 时 动态 特征 。CTR 预 测 中 的 动态 特征 (DL 13.5.4 节 ) 也 可 
以 根据 分 钟 级 的 数据 补充 调整 。 

这 些 场景 对 数据 处 理 系统 提出 了 新 的 挑战 : 简单 的 基于 Hadoop 的 
离线 挖掘 模式 不 再 适用 了 ， 需 要 一 个 灵活 的 计算 框架 ， 能 够 实时 流 式 
地 接受 线 上 日 志 ， 并 用 预先 组 织 好 的 一 组 处 理 过 程 来 加 工 这 些 数 据 ， 
得 到 随时 可 以 被 使 用 的 结果 。 这 样 的 需求 催生 了 流 计算 平台 。 以 上 面 
的 几 个 广告 系统 中 实时 处 理 的 任务 为 例 ， 它 们 组 成 的 处 理 流程 可 以 用 
图 13-3 来 示意 。 


(Ad ID: 花费 ) 


(Imp ID: 展 击 ) 
(Imp ID: 点 击 ) 
— 


(Imp ID: 展示 ) 


(User ID: 
Imp ID: 点 击 ) 


标签 特征 ) 


实时 受众 定 和 


(HERA: 展 
T Bü. EC) 


实时 点 击 反馈 


图 13-3 广告 系统 中 的 流 计算 任务 流程 示意 

图 13-3 的 流程 非常 类 似 于 一 组 有 依赖 天 系 的 MapReduce 任 务 ， 但 是 
由 于 数据 实时 人 处理 的 需求 ， 它 需要 的 计算 架构 与 MapReduce 是 不 同 的 。 
一 个 流 计 算 的 基础 平台 应 该 能 够 自动 完成 数据 在 不 同 任务 间 的 调度 以 
及 任务 内 部 的 分 布 计算 。 流 计算 平台 有 若干 开源 工具 可 供 选 择 ， 其 中 
Storm 的 编程 接口 与 Hadoop 很 相似 ， 使 用 起 来 相当 方便 ， 可 以 参考 
9.5.8 PEJA © 

虽然 计算 逻辑 上 接近 ， 流 计算 与 MapReduce 有 着 本 质 的 不 同 : 
MapReduce 是 通过 分 布 式 文件 系统 尽 可 能 对 计算 进行 调度 ， 而 流 计算 则 
是 在 各 台 服 务 器 之 间 调 度数 据 来 完成 计算 。 这 使 得 它们 的 适用 场景 
有 着 很 大 的 区 别 : 流 计算 适用 于 准 实 时 、 人 快速 的 数据 统计 和 反馈 ， 但 
是 由 于 是 在 调度 数据 ， 所 以 并 不 适合 于 海量 数据 的 批量 计算 ; 而 
MapReduce 更 适用 于 数据 量 非常 大 ， 但 是 计算 实时 性 要 求 并 不 太 高 的 情 
形 。 实 践 中 ， 往 往 需 要 两 者 结合 来 达到 数据 量 和 实时 性 两 方面 的 要 
求 。 


13.4 广告 检索 


大 量 中 小 广告 主 参 与 的 竞价 广告 市 场 中 ， 复 洒 的 定 问 条 件 对 检索 
技术 提出 了 新 的 要 求 。 倒 排 索引 是 搜索 引擎 的 关键 技术 ， 而 广告 的 检 
索 上 也 采用 这 样 的 框架 。 但 是 广告 的 检索 问题 也 有 一 些 目 身 的 特点 和 
需求 ， 基 本 的 倒 排 索引 技术 在 广告 检索 中 遇 到 了 两 个 新 问题 。 

(1) 广告 的 定向 条 件 组 合 可 以 看 成 是 一 个 由 与 或 关系 连接 的 布尔 
表达 式 ， 这 样 的 文档 显然 与 搜索 引擎 面 对 的 Bow 文 档 不 太一 样 ， 这 里 
存在 着 有 针对 性 的 检索 性 能 优化 空间 。 

(2) 在 上 下 文 关键 词 或 和 用 户 标签 比较 丰富 时 ， 广 告 检 索 中 的 查 
询 可 能 相当 长 ， 甚 至 会 由 上 百 个 关键 词组 成 ， 这 种 情况 下 的 检索 也 与 
搜索 引擎 中 主要 由 1~ 4 个 关键 词组 成 的 查询 有 很 大 区 别 。 试 想 ， 如 有 宁 
将 100 个 关键 词 同时 输入 搜索 框 中 ， 返 回 的 结 末 会 是 你 想 要 的 吗 ? 

这 些 老 异 使 得 广告 中 使 用 的 检索 技术 在 基本 的 倒 排 索引 之 上 有 所 
发 展 ， 下 面 将 具体 讨论 上 面 两 个 问题 。 


13.4.1 布尔 表达 子 


广告 检索 与 普通 搜索 引擎 检索 的 第 一 个 不 同 是 布尔 表达 式 的 检索 
问题 。 在 受众 定向 的 售卖 方式 下 ， 一 条 广告 文档 不 能 再 被 看 成 是 
BoW， 而 是 应 该 被 看 成 一 些 定向 条 件 组 合成 的 布尔 表达 式 ， 如 下 面 的 
JV AIT. ° 

a= (ageE{3}ngeoE{ 北 京 }) U (geo€(J ZR) ngender€ {5 }) 


a= (age€(3)ngender€(Z)) U (geoy/E{ 北 京 ， 广 东 ]) 

a= (age€(3)ngender€( B )ngeo /E{ 广 东 }) U (stateE{ 广 东 } 
NngenderE{ 女 }) 

a= (ageE{3，4}) U (geoE{ 广 东 }ngenderE{ 男 }) 

a= (state /E{ 北 京 ， 广东}) u (ageE{3, 4}) 

a= (state /E{ 北 京 ， 广 东 }) u (ageE{3}nstateE{ 北 京 }) U 
(stateE{ 广 东 }ngenderE{ 男 }) 

a= (ageE{3}nstateE{ 北 京 }) U (stateE{ 广 东 }ngenderE{ 女 }) 

这 些 例 子 用 布尔 表达 式 表 示 广 告 的 定向 人 群 ， 并 且 写 成 析 取 范式 
(Disjunctive Normal Form, DNF) 的 形式 。 在 这 样 的 表达 形式 中 ， 先 
要 解释 以 下 两 个 概念 。 

(1) 每 个 DNF 都 可 以 分 解 成 一 个 或 多 个 交集 (conjunction) 的 
Jf, Ua, 可 以 分 解 成 j= (ageE{3}ngeoE{ 北 京 }) 和 k,= (geoE{ 广 东 } 
ngenderE{ 男 }) 这 两 个 交集 。 

(2) 每 个 交集 又 可 以 进一步 分 解 为 一 个 或 多 个 赋值 集 
(assignment) 的 交 ， 以 j 为 例 ， 可 以 分 解 为 ageE{3} 和 geoE{ 北 京 } 
这 样 两 个 赋值 集 。 为 了 后 面 算法 描述 方便 ， 我 们 定义 Assignment、 
Conjunction 和 DNEF 的 数据 结构 如 下 。 


c» cr 一 一 co ~ 人 — 


ao co —1I 


sizeof (query) <sizeof (Conjunction) 时 ， 该 Conjunction 一 定 不 满足 该 


class Assignment { 

public: 
int attribute; // 该 4ssignment 指 定 的 标签 类 型 
bool belong; —// 表示 该 ssignment 是 属于 还 是 不 属于 
int value;  // 该 Assignment 指 定 的 标 丛 取 值 

}; 


// 一 个 或 多 个 lssignnent 的 交 


typedef vector<Assignment> Conjunction; 


// 一 个 或 多 个 Conjunction 的 并 
typedef vector<Conjunction> DNF; 


布尔 表达 式 检索 的 问题 有 两 个 特点 ， 这 两 个 特点 是 设计 算法 的 重 
要 依据 。 首 先 ， 当 某 次 广告 请 求 的 定向 标签 满足 某 个 Conjunction 时 ， 

一 定 满足 包含 该 Conjunction 的 所 有 广告 ， 这 说 明 只 要 对 Conjunction 建 
立 倒 排 索引 ， 并 加 上 一 层 Conjunction > AD 的 辅助 索引 即 可 。 其 次 ， 在 
Conjunction 的 倒 排 索引 中 ， 有 一 项 直觉 可 以 帮助 我 们 减少 计算 : 令 
sizeof (query) 表示 广告 请 求 中 的 定向 标签 个 数 ， 而 sizeof 


(Conjunction) 表示 某 Conjunction 中 的 含有 “E” 的 Assignment 数 目 ， 当 


次 请 求 。 


根据 上 述 两 个 重要 特点 ， 可 以 设计 出 为 布尔 表达 式 检 索 定制 的 算 
法 。 我 们 以 参考 文献 [76] 中 的 算法 为 例 介 绍 这 种 思路 。 该 算法 维护 一 个 
两 层 的 倒 排 索引 ， 即 上 面 所 说 的 Conjunction 和 AD 两 层 索 引 ， 后 一 个 索 
引 按照 “或 ”的 关系 进行 检索 ， 而 前 一 个 索引 有 不 太一 样 的 结构 : 在 
Conjunction 的 索引 中 ， 把 每 个 Conjunction 分 解 成 一 组 (E, E) 对 ， 
例如 ， 将 ageE{3，4} 分 解 成 ageE{3} 和 ageE{4} 两 个 Term， 这 些 Term 即 
是 倒 排 索引 的 键 ， 而 “E” 和 “/E” 操 作 符 放 在 倒 排 链表 的 具体 元 素 上 。 利 
用 上 文 所 说 的 Assignment 个 数 的 约束 ， 我 们 可 以 做 的 优化 是 将 这 一 倒 
排 索 引 按照 sizeof (Conjunction) 分 成 者 干部 分 ， 以 提高 检索 效率 。 仍 
然 以 上 文 的 一 组 广告 为 例 ， 这 组 广告 的 DNF 可 以 按 如 下 的 方式 分 解 成 


一 些 Conjunctions: 


ai=j,Uj， 3 a,=j,Uj, 2 a,-j,Uj, 7 azj,Uj, d a. j,Uj, 3 a,-j,Uj,Uj, ? 
ai=j,Uj， 
其 对 应 的 倒 排 索引 也 可 以 很 容易 地 写成 下 面 的 形式 : 


J {a que， a}, Las ]; 24895 ]-*18; à, aj, k>a aJ, 


j> {a, a, a}, 

j, > {a,, a} 

可 以 注意 到 ， 所 有 Conjunction 中 最 大 的 size 为 2， 可 以 将 倒 排 索引 
分 成 3 部 分 ， 每 部 分 中 所 有 的 Conjunction 其 size 都 一 样 ， 按 照 这 样 的 准 
则 ， 最 终 形成 的 Conjunction 倒 排 索 引 应 为 下 面 的 形式 : 


size=0: (geo， 北 京 ) -{ G., /€) }, (geo, 广东 ) >{ Gj, / 
€ hz]. 

size=1: (age, 3) >{ (j., €) }, (age, 4) >{ G., ©) } 

size-2* Cage, 3) —( (€). Ges Ey qoe. X 

(geo, dtm) -{ G. €) }, (gender, 女 ) -{ G, €), Q, 
€) }, (gender, B) -{ G, ©). G,. ©) 3, (geo, 广东 ) 
a Uo TE) oe “Ue fe doe 

其 中 size 为 0 的 部 分 包含 哪些 所 有 只 有 ”%E” 操 作 符 的 
Conjunction。 为 了 保证 给 定 一 个 Assignment，size 为 0 的 Conjunction 至 少 
出 现在 一 个 倒 排 表 中 ， 算 法 引入 Z 为 一 个 特殊 的 Term， 并 且 将 所 有 size 
为 零 的 Conjunction 都 放 在 其 倒 排 表 中 ， 并 赋 以 一 个 “E” 操 作 符 。 

在 第 10 章 的 标准 倒 排 索引 类 基础 上 加 以 改进 ， 将 DNF 索引 类 的 
代码 列 在 下 面 ， 方 便 大 家 参考 。 在 这 上 段 代码 中 ，IndexDNF 对 应 上 面 提 
到 的 DNE 的 倒 排 索引 ， 而 IndexConj 对 应 于 Conjunction 的 一 组 倒 排 索 
引 ， 其 中 每 一 个 倒 排 索引 中 所 有 的 Conjunction 都 具有 相同 的 size 。 
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13.4.2 W. 


BO BIRR wR MDA AAA, AN, HT BAR 
需要 处 理 很 多 个 标签 组 成 的 查询 。 让 我 们 考虑 上 下 文 定 向 的 情形 : 当 
通过 网 页 内 容 的 关键 词 来 匹配 广告 候选 时 ， 往 往 需要 用 十 多 个 甚至 几 
十 个 关键 词 去 查询 广告 ， 再 进行 eCPM 排 序 。 在 这 一 情形 下 ， 如 果 仍 然 
采用 一 般 搜 索引 擎 对 查询 的 处 理 办 法 ， 则 会 陷入 两 难 的 境地 。 如 采 假 
设 各 个 关键 词 之 间 是 “与 ”的 关系 ， 基 本 上 不 可 能 得 到 任何 匹配 的 结 
A. 如 果 假 设 各 个 关键 词 之 间 是 “或 ”的 关系 ， 那 么 在 检索 阶段 就 会 返 
回 大 量 相 关 性 很 差 的 候选 ， 给 后 续 排 序 的 效率 带 来 很 大 的 挑战 。 

同样 地 ， 当 用 户 的 兴趣 标签 较 丰富 时 ， 也 存在 类 似 的 挑战 。 人 简单 
地 比较 一 下 搜索 与 搜索 重 定 同 广 告 束 可 以 理解 为 什么 展示 广告 的 查询 
信和 号 会 丰富 很 多 : 在 搜索 中 ， 仅 仅 需要 根据 用 户 当前 输入 的 关键 词 进 
行 检 索 ， 而 在 搜索 重 定 癌 广告 中 ， 虽 然 用 的 也 是 搜索 信号 ， 但 是 需要 
将 用 户 一 段 时 间 内 的 搜索 关键 词 全 部 考虑 ， 显 然 这 样 的 查询 要 长 了 很 
多 。 在 此 也 可 以 看 出 ， 搜 索 广告 完全 可 以 采用 一 般 的 检索 技术 ， 但 是 
展示 广告 需要 有 新 的 方案 。 

考察 上 面 问题 产生 的 原因 会 发 现 ， 在 长 查询 的 检索 情形 下 ， 我 们 
实际 上 项 望 的 是 查询 与 广告 候选 间 的 相似 程度 尽 可 能 高 ， 但 任何 一 个 
天 键 词 是 否 出 现在 文档 中 其 实 都 不 关键 。 这 样 以 查询 和 文档 间 的 相似 
程度 为 目标 的 检索 问题 称 为 相关 性 检索 。 


解决 相关 性 检索 的 基本 思路 是 在 检索 阶段 就 引入 某 种 评价 函数 ， 
并 以 此 画 数 的 评价 结果 决定 返回 哪些 候选 。 评 价 函 数 的 设计 有 两 个 要 
RK: 一 是 合理 性 ， 即 与 最 终 排序 时 使 用 的 评价 函数 近似 ; 二 是 高 效 
性 ， 即 需要 在 检索 阶段 实现 快速 评价 算法 ， 否 则 就 与 在 排序 阶段 对 每 
个 候选 分 别 计 算 没 有 差别 了 “。 研 究 表明 ， 当 选用 线性 评价 函数 (变量 
为 各 标签 或 关键 词 ) 且 各 权重 为 正 时 ， 是 可 以 构造 出 这 样 的 快速 检索 
算法 的 。 假 设 线性 评价 函数 的 形式 如 下 式 所 示 : 


score(a, c) = — 3 ay; (a) (13.5) 


其 中 F (a) MF (c) 分 别 表示 广告 文档 a 和 上 下 文 特征 c 上 不 为 堆 
的 特征 集合 ， 比 如 查询 中 的 关键 词 ， 而 v (a) 表示 t 这 一 特征 在 a 广告 上 
的 贡献 值 。 常 用 的 VSM 模 型 不 符合 这 一 要 求 ， 但 是 如 果 不 考虑 余弦 距 
离 中 的 归 一 化 分 母 ， 可 以 用 这 一 线性 函数 在 检索 阶段 做 近似 的 预 评 
估 。 这 种 情况 下 ，a 即 为 关键 词 t 在 上 下 文中 的 TF-IDF， 而 v。(a) 即 为 t 
在 某 广 告 a 中 的 TF-IDF。 虽 然 a 在 不 同 的 查询 中 取 值 不 同 ， 但 在 同一 次 
查询 中 是 一 组 常数 。 

将 线性 函数 评价 过 程 加 速 的 关键 在 于 使 用 两 个 上 界 : 一 是 某 个 关 
Bein] t 在 所 有 文档 上 贡献 值 的 上 界 ， 记 为 u， 二 是 某 个 文档 中 所 有 关键 
词 的 上 界 的 和 ， 这 实际 上 是 该 文档 对 当前 查询 评价 函数 的 上 界 ， 记 为 
U,。 巧 妙 地 利用 这 两 个 上 界 可 以 在 检索 过 程 中 排除 掉 大 量 不 可 能 胜出 
的 候选 ， 从 而 达到 快速 评价 的 目的 。 这 一 方法 即 为 Andrei Broder 等 人 提 
出 的 WAND (Weak AND) 算法 中， 也 是 上 下 文 定 向 广告 和 内 容 推 荐 产 


品 中 非常 实用 的 快速 检索 算法 ， 我 们 以 此 算法 为 例 ， 介 绍 一 下 相关 性 
检索 的 算法 过 程 。 

WAND 的 检索 过 程 如 图 13-4 所 示 ， 图 中 每 个 关键 词 (Term) 带 有 
一 条 倒 排 链 ， 链 表 中 的 每 一 项 是 包含 此 关键 词 的 文档 ID ， 用 阴影 
示 。WAND 算 法 用 到 一 个 小 顶 的 排序 堆 结构 ， 该 堆 维护 着 到 目前 为 目 
的 top-K 结果 ， 当 新 的 候选 产生 时 ， 如 果 堆 尚未 装 满 或 相关 度 大 于 堆 顶 
文档 的 相关 度 ， 则 采用 堆 排 序 的 方法 将 其 插入 堆 ， 否 则 就 可 以 直接 抛 
弃 此 候选 。 检 索 过 程 迭 代 地 执行 下 面 两 个 步 又 。 

(1) 将 各 关键 词 对 应 的 倒 排 链 按照 其 最 小 的 文档 ID 升 序 排列 。 

(2) 按 前 面 的 升序 依次 访问 各 关键 词 {， 并 累加 其 对 应 的 u 至 U , 
直至 U 大 于 堆 顶 。 设 此 时 到 达 第 n-1 个 关键 词 (图 13-4 中 n=3) ， 如 果 
此 时 第 0 个 关键 词 倒 排 链 和 第 n-1 个 关键 词 倒 排 链 的 最 小 文档 ID 一 致 
则 计算 该 文档 准确 的 相关 性 ， 如 果 仍 然 大 于 堆 项 ， 则 该 文档 推 入 推 ; 
如 果 最 小 文档 ID 不 一 致 ， 说 明 该 候选 无 胜出 的 可 能 ， 于 是 在 前 n 个 关键 
词 倒 排 链 中 挑选 一 个 ， 将 链表 头 跳 到 第 n-1 个 关键 词 倒 排 链 的 最 小 文 
档 ID， 然 后 流程 跳 转 至 第 1 步 。 
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图 13-4 WAND 相 关 性 检索 过 程 示意 
读者 可 以 自行 验证 ，WAND 算 法 的 执行 过 程 能 够 利用 两 个 上 界 在 
检索 过 程 中 快速 地 排除 大 部 分 候选 。 此 算法 执行 过 程 的 伪 代 码 如 下 。 
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这 里 讨论 的 相关 性 检索 技术 仅仅 考虑 了 相关 性 评价 函数 为 线性 的 
情况 。 虽 然 这 一 条 件 严 格 限制 了 评价 函数 的 适用 范围 ， 然 而 ， 如 果 考 
虑 到 广告 的 排序 模型 经 常 采用 广义 线性 模型 的 建 模 方 法 的 话 ， 线 性 评 
价 画 数 的 适用 范围 束 会 大 大 扩展 。 我 们 采用 后 面 提 到 的 基于 广义 线性 
模型 的 CTR 预 测 模型 也 可 以 套用 此 框架 。 


13.5 点 击 率 预测 


广告 点 击 率 预测 的 目的 是 广告 排序 ， 但 不 能 套用 搜索 里 的 排序 问 
题 : 点 击 率 预 测 不 能 像 搜索 那样 只 要 求 结 果 排 序 的 正确 性 ， 因 为 点 击 
率 需 要 乘 以 点 击 单价 才 得 到 最 后 的 排序 。 另 外 ， 在 DSP 中 ， 需 要 尽 可 
能 准确 地 预测 eCPM 用 于 出 价 。 因 此 ， 作 为 各 种 广告 系统 中 通用 的 一 项 
技术 ， 点 击 率 预测 更 适合 被 建 模 成 回归 问题 而 不 是 排序 问题 。 

关于 点 击 率 预测 的 方法 ， 很 目 然 的 可 以 想到 基于 统计 的 估计 : 


N 

ne ME hi/N (13.6) 

其 中 h 是 表示 第 i 次 展示 被 点 击 的 次 数 ， 一 般 情 形 下 为 0 或 者 1。 但 
是 ， 如 果 某 种 (u. c) 组 合 的 情形 下 ， 广 告 a 没 有 被 展示 过 或 点 击 量 很 
稀世 ， 束 无 法 通过 历史 数据 来 统计 点 击 率 了 。 容 易 想到 的 解决 方案 
将 要 展示 的 广告 a 和 一 个 展示 过 的 广告 aa 类似 ， 则 可 以 预 售 a 的 点 击 率 与 
FZ o MRI (a, uc) 投影 到 特征 空间 比较 ， 则 演化 为 即将 介绍 的 
扩 击 率 模型 。 


13.5.1 点 击 率 预测 模型 


我 们 把 点 击 事件 h 看 成 一 个 二 元 取 值 的 随机 变量 ， 那 么 其 取 值 为 真 
(h-1) 的 概率 就 是 点 击 率 。 因 此 ， 点 击 事件 的 分 布 可 以 写成 以 点 击 率 
hp 为 参数 的 二 项 分 布 (binomial distribution) : 
p(h) = u^(1— yy 7^ (13.7) 

而 点 击 率 预 测 模型 的 作用 是 在 (a, u, c) 组 合 与 点 击 的 概率 h 之 
间 建 立 函 数 关系 ， 这 可 以 表示 成 对 h (a, u, c) =p (h-1]a, u, c) 的 
概率 建 模 问题 ， 可 以 很 自然 地 想到 的 基础 模型 是 逻辑 回归 (Logistic 
Regression，LR) : 


p(hja,u,c) = o((2h - 1)w ' a(a, u,c)) = 1 十 NM (13.8) 

其 中 x 表示 (a, u, c) 组 合 上 的 特征 矢量 ， 即 前 面 介 绍 过 的 受众 
定向 的 输出 及 其 派生 的 其 他 特征 ，w 为 各 特征 的 加 权 系 数 ， 也 就 是 此 模 
型 需要 优化 的 参数 ;，(2h-1) wx 这 一 线性 函数 的 输出 经 过 逻辑 5 型 
Sigmoid 函 数 c_ (z) ={1+e 直 "映射 到 (0, 1) 区 间 内 ， 其 中 (2h-1) 是 
为 了 将 {0，1} 的 点 击 变量 变换 到 集合 {-1，1} 上 。 从 方法 上 看 ，LR 
征 利用 线性 函数 来 解雇 非 线性 目标 ， 也 属于 广义 线性 模型 四。 可 以 推导 
得 到 ， 逻 辑 回归 正 是 当 目 标 值 的 分 布 服从 伯 努 利 分 布 时 广义 线性 模型 


p 
eee () ee 
线性 模型 的 性 质 和 结论 也 适用 于 LR 模型 。 

实践 中 ， 由 于 LR 模型 使 用 的 特征 较 多 ， 并 且 有 相当 多 的 特征 在 训 
练 集 中 出 现 的 次 数 并 不 多 ， 为 了 避免 过 拟 合 ， 还 需要 在 最 大 似 然 佑 计 
时 加 入 正则 化 项 。 如 果 采 用 L -norma， 则 此 优化 问题 可 以 表达 成 : 


T à; T se a l 
min Ic |» In(1 4 e Qhi7Dw etaim) 4 20 (13.9) 


13.5.2 优化 算法 

对 于 LR 模型 ， 我 们 通常 采用 最 大 似 然 估计 来 求解 加 权 系 数 w。LR 
模型 的 最 大 似 然 解 有 很 多 计算 方法 ， 而 我 们 在 实践 中 重点 关注 其 收敛 
速度 以 及 在 面 对 海量 数据 时 分 布 式 计 算 的 便捷 性 。 比 如 ， 如 将 其 视 为 
最 大 炉 模 型 的 特例 ， 那 么 最 大 炉 模 型 的 典型 优化 方法 一 一 改进 的 迄 代 
缩放 (Improved Iterative Scaling, IIS) 算法 "也 可 以 用 于 LR 的 更 新 。 
这 种 方法 虽然 物理 意义 明确 、 计 算 简单 ， 却 有 着 收敛 速度 慢 的 致命 弱 
点 ， 因 此 并 不 适用 。 

由 于 工 R 模 型 不 存在 闭 式 解 ， 其 优化 方法 必然 需要 迭代 进行 。 典 型 
的 MapReduce 分 布 式 计算 框架 下 ， 由 于 磁 副 被 用 作 和 迭代 之 间 的 数据 交 
换 手段 ， 迭 代 的 次 数 直 接 决定 着 训练 算法 的 效率 。 因 此 ， 在 每 个 迭代 
中 尽 可 能 完成 更 复杂 深入 的 运算 、 减 少 从 代 次 数 是 此 处 的 关键 。 这 样 


的 思路 适用 于 LR 模 型 训练 ， 也 适用 于 许多 MapReduce 下 的 需要 迭代 求 
解 的 机 器 学 习 算 法 。 

1.L-BFGS 

在 目标 函数 可 导 的 一 般 优化 问题 中 ， 拟 牛顿 法 是 一 族 最 常用 的 方 
法 ， 因 此 也 可 以 直接 应 用 于 LR 问题 的 求解 。 不 过 ， 从 10.2.4 市 中 的 
BFGS 的 代码 可 以 看 出 ， 它 需要 存储 赫 斯 矩阵 的 逆 和 矩阵 的 近似 B,， 因 此 
空间 复杂 度 为 O (D) 。 在 点 击 率 预测 这 样 的 变量 维 数 很 高 的 优化 问题 
中 ， 赫 斯 矩阵 的 斥 寸 过 大 ， 根 本 无 法 在 内 存 中 存放 。 

解决 这 一 问题 的 思路 是 仅仅 保留 最 近 几 次 更 新 的 一 些 状态 矢量 ， 
然后 利用 这 些 状 态 矢 量 和 当前 的 梯度 ， 直 接 计算 出 更 新 方向 ， 这 种 方 
法 称 为 有 限 内 存 BFGS (Limited-memory BFGS, L-BFGS) 。L-BFGS 
的 核心 思想 是 根据 前 几 次 的 函数 值 变化 和 梯度 变化 近似 地 拟 合 赫 斯 矩 
阵 的 逆 。 先 来 回顾 一 下 ， 在 BFGS ARAE R, BT RE AE yT 
公式 可 以 表示 为 : 
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SE, MB, 可 近似 地 表示 为 : 
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值 。 为 降低 计算 复杂 度 ， 实 际 中 比较 有 


0 
x 的 选择 是 令 Bi 为 一 个 对 角 阵 


Bj = ?pr = (sk 191a / lli l7), ( FEILER, 
B, 可 以 在 每 次 和 迭代 中 高 效 地 计算 出 来 的 。 参 考 文 献 [54] 中 进行 的 实验 研 
究 表明 ， 这 类 有 限 内 存 的 二 阶 方法 是 可 行 而 且 有 效 的 。 下 面 附 上 L- 
BFGS 和 迭代 求 解 的 代码 片段 。 
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容易 验证 ， 上 面 每 一 步 迭 代 的 空间 和 时 间 复 杂 度 都 降 到 了 mxD， 
如 果 选 择 一 个 较 小 的 m， 就 可 以 认为 其 复杂 度 接 近 线 性 ， 这 在 大 多 数 较 
高 维度 特征 空间 上 建 模 的 应 用 中 就 可 以 达到 实用 水 平 『。 注 意 ， 在 送 
代 的 前 m-1 步 ，L-BFGS 和 BFGS 是 没有 区 别 的 。 

2.Trust-Region 法 

除了 L-BFGS, ，Trust-Region 法 也 被 证 明 对 求解 LR 问题 很 有 效 ， 而 
且 往往 可 以 更 快 地 收敛 加。 不 过 ， 在 点 击 率 预测 的 问题 中 ， 同 样 因为 模 
型 的 维 数 可 能 很 高 ， 直 接 用 公式 10.14 来 解 Trust-Region 的 子 问题 仍然 是 
不 现实 的 。 

对 于 这 样 高 维 的 问题 ， 可 以 采用 共 斩 梯 度 法 (conjugate gradient 
method) 外 来 求解 Trust-Region 的 子 问 题 。 当 目标 函数 为 二 次 正定 画 数 

T l T 

PIV) gm ES scape p 
WEIN) WRIA UIA SIUC, ET ETT aT EE © SCARE 
s| < 


(LRSM, ape! 引 | S Ok 的 约束 条 
件 ， 考 虑 到 子 算法 中 位 移 量 是 递增 的 mm， 当 发 现 某 次 的 位 移 跳出 置信 球 
之 外 时 ， 将 其 沿 着 原来 的 搜索 方向 退回 到 置信 球 边界 即 可 。 

具体 来 说 ， 在 共 思 g 梯 度 法 的 每 次 送 代 中 的 ， 主 要 的 操作 是 矩阵 
与 向 量 s 的 乘积 ， 由 于 X= (x, ~, x) -是 稀疏 的 ， 不 需要 圭 接 求 赫 其 
矩阵 也 可 以 得 到 该 乘积 ， 对 于 公式 13.9 的 目标 画 数 ， 计 算 公式 如 下 ， 
Hs =(I+CX'DX)s=8+CX'(D(Xs)) (13.12) 


EH D=diag{D}, D=o ( (2h-1) wx) {1-0 ( (2h-1) 
wx) }。 
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// delta : HARTER óp > 0 

ff 4 : 当前 的 导数 

// Out: 

// s : 总 得 的 位 净 矢 旦 ， 初 始 位 净 gj = 0, 

nn : HPS RE. HRA Sa) A Rit Re se T HR 

void tr.cg(double delta, const Vec E g, Vec & s, Vec k r) 1 
Vee d, Hd; 


double r2, rnew2; 


// t= -VN F(x) 


= scale(g, -1.0); 
= dot(r, r); 


f/f neo xe 


d 


= Lr; 


while (true) f 


// Alle’ <cellV f(a) | m» HABER 
if (dot(r, r)) <= 0.1 * dot(g, g)) 


break; 


// isiyi ~ si taidi Y Ko: — ||r;||?/d) V? f(z)d; 


Hd = EvProduct(d);  // itf 4 x adu 
double alpha = r2 / dot(d, Hd); 
plusAssign(s, alpha, d); 


// wk cgil RMI, FAH EGER RA ||spad)||? — pH HERR 


if (dat(s, =a) > dot(delta,delta)) 
{reCalS(alpha, d, s, r); break;} 


// Vig — r,— 0, V? f(x)d, 
alpha = -alpha; 
plusAssign(r, alpha, Hd); 


rnew2 = dot(r, r); 


// RA FRING A diy = riy Ad.. duifed;R X4 A 


double beta = rnew2 / r2;  // B= riaal? / | rl? 


scale(d, beta); 
piusAssign(d, 1, r2); 


r2 = rnew2; 


3.ADMM 计算 框架 

从 上 节 中 Trust-Region 法 与 L-BFGS 法 的 比较 中 可 以 看 到 ， 随 着 每 轮 
迭代 的 代价 增加 ， 和 迭代 次 数 也 随 之 降低 了 ， 因 此 有 可 能 会 带 来 收敛 速 
度 的 提升 。 是 否 存在 一 种 普 适 性 的 思路 ， 使 得 我 们 可 以 对 一 般 的 迭代 
求解 问题 减少 其 迭代 次 数 呢 ?学 术 界 对 这 个 问题 也 进行 了 深入 的 人 研 
究 ， 产 生 了 一 些 颇具 启发 意义 的 方法 。 这 里 我 们 介绍 一 种 称 为 交替 方 
向 乘 子 法 (Alternative Directional Method of Multipliers, ADMM) “AY 
计算 框架 。 

从 方法 论 上 说 ， 要 降低 迭代 数目 ， 必 然 要 求 在 一 个 迭代 内 完成 更 
复杂 的 计算 。 要 了 解 ADMM， 需 要 先 介绍 一 下 扩展 拉 格 衣 日 方法 。 
10.2.1 市 介绍 了 带 约 束 优化 的 拉 格 朗 日 法 ， 如 果 只 考虑 等 式 约束 为 一 个 
线形 约束 (Ax=b) 的 形式 ， 可 以 构造 如 下 的 扩展 拉 格 朗 日 : 

L(z,y) = f(x) +y" (Ab) +5 Ae -bl (13.13 

容易 验证 ， 这 一 形式 可 以 得 到 与 标准 拉 格 朗 日 一 样 的 解 。 引 入 一 
个 二 阶 惩罚 项 ， 往 往 会 使 得 问题 求解 的 过 程 更 好 地 收敛 。 根 据 参 考 文 
献 [14] 中 的 介绍 ， 这 一 问题 可 以 用 Dual Acsent 方 法 求解 。 而 问题 得 以 分 
布 式 求解 的 天 键 是 当 目 标 范 数 可 以 分 解 成 下 面 的 形式 时 ， 就 可 以 发 现 
存在 有 效 的 分 解 和 迭代 求解 方案 : 
min f(x)+g(z) st. Ar+Bz=c (13.14) 

对 应 的 迭代 求解 方案 是 一 个 x，z，y 依次 迭代 更 新 的 过 程 : 


Az + Bz, -c+ i|) 


2141 ~angmin (f(2)  (of2) 


>) (13.15) 


2,41 arg min (g(z) + (p/2)| Azy.,i + Bz - c+ 8; 
z 


S541 7 8, + Ata + Biy- 

为 了 表达 上 的 整洁 ， 我 们 将 y 换 成 了 归 一 化 的 形式 s= (1/p) y » Æ 
典型 的 利用 ADMM 分 布 式 求解 的 问题 中 ， 上 面 的 第 一 个 公式 用 于 各 部 
分 数据 的 局 部 参数 更 新 ， 第 二 个 公式 用 于 将 各 部 分 得 到 的 局 部 优化 参 


数 综合 成 全 局 的 参数 ;而 第 三 个 公式 中 对 偶 变量 的 更 新 则 是 使 得 整个 
过 程 稳定 和 高 效率 的 关键 。 
按照 公式 13.14 的 结构 ， 可 以 将 LR 的 优化 问题 13.8 改 写成 下 式 : 
L nod | 
min es o(DVw®) + r(v) (1316) 
st. wÜ-vz0, 1=1,...,L 
这 里 的 1={1，…，L} 表示 数据 集 分 裂 后 的 各 个 部 分 ，w" 对 应 于 某 
一 部 分 数据 上 得 到 的 LR 参数 (对 应 于 公式 13.16 中 的 x) ， 而 v Ae 
体 决策 后 的 参数 (对 应 于 公式 13.16 中 的 z) ° DÀ 表示 由 第 ] 块 数据 样 
本 的 特征 拼 成 的 矩阵 。 问 题 的 约束 条 件 是 表明 求解 收敛 时 各 部 分 的 参 
数 应 该 等 于 整体 参数 ， 这 是 非常 自然 需要 满足 的 。 目标 函数 中 的 r 
Cw) 代表 的 是 求解 过 程 的 对 参数 的 某 种 正则 化 项 ， 比 如 公式 13.9 中 的 
L -norm 项 。 于 是 ， 可 以 得 到 用 ADMM 方 法 迭代 求解 此 问题 的 方法 : 


ol, ueni (010) fe - st) 
i 


Vis — arg min (r(v) + (Lp/2)lv — wii - 8,|5) (13.17) 
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我 们 来 分 析 一 下 这 一 更 新 过 程 。 

(1) 首先 ， 在 每 个 数据 分 块 上 ， 分 别 执行 第 一 个 公式 中 的 对 应 更 
新 ， 得 到 该 数据 分 块 上 更 新 后 的 参数 ， 这 一 步 是 可 以 分 布 式 进行 的 ， 
而 且 各 个 数据 块 之 间 不 需要 通信 。 

(2) 然后 ， 根 据 各 部 分 更 新 得 到 的 参数 ， 执 行 第 二 个 公式 得 到 综 
合 以 后 的 整体 参数 v。 

(3) 根据 第 三 个 公式 更 新 对 偶 变量 s， 并 将 更 新 后 的 v 和 s 分 发 至 
各 个 数据 块 的 处 理 单元 。 

这 一 过 程 可 以 非常 自然 地 用 MapReduce 方 式 来 实现 ， 其 中 步 又 1 对 
应 着 各 个 Mapper， 而 步骤 2 和 步骤 3 对 应 着 一 个 唯一 的 Reducer。 

我 们 可 以 将 此 过 程 与 L-BFGS 的 迭代 的 更 新 过 程 比较 一 下 : 在 工 - 
BFGS 当中 ， 每 个 Mapper， 即 分 布 式 的 部 分 计算 过 程 非常 简单 ， 只 需要 
在 每 个 样本 上 对 参数 求 导数 ， 再 将 导数 累加 即 可 ; 而 在 ADMM 方法 
中 ，Mapper 计算 的 过 程 变 得 复杂 了 很 多 ， 由 简单 的 导数 计算 变 成 了 一 
个 LR 的 求解 问题 ， 也 就 是 说 Mapper 的 计算 本 身 就 需要 迭代 才 可 以 完 
成 。 但 正 由 于 在 每 个 Mapper 中 作 了 更 多 的 计算 工作 ， 使 得 整体 求解 过 
程 的 收敛 更 快 。 同 时 需要 注意 的 是 ， 实 际 上 在 每 个 Mapper 中 复杂 的 更 


新 过 程 并 不 会 带 来 计算 代价 的 显著 增加 ， 这 是 由 于 每 个 Mapper 所 需要 
处 理 的 数据 量 有 限 ， 因 此 可 以 放 在 内 存 中 ， 于 是 在 分 布 式 计算 中 最 主 
要 的 开销 即 VO 开销 并 没有 增加 。 可 以 认为 ADMM 的 方法 是 用 对 局 部 
内 存 的 更 多 访问 换 得 了 全 局 MapReduce 过 程 的 迭代 次 数 减 少 ， 从 而 提高 
了 效率 。 该 方法 的 具体 MapReduce 编 码 实现 并 不 困难 ， 读 者 可 以 目 行 实 
更。 

虽然 是 以 LR 模型 为 例 来 介绍 ADMM 方 法 的 应 用 ， 实 际 上 这 种 方法 
可 以 应 用 于 许多 第 见 的 机 右 学 习 模 型 ， 而 且 大 都 在 MapReduce 的 计算 
框架 下 可 以 达到 减少 总 送 代 次 数 ， 从 而 提高 效率 的 目的 。 

4.Spark 上 的 模型 优化 

大 多 数 机 器 学 习 问 题 往往 需要 进行 迭代 求解 ， 而 Hadoop 上 
MapReduce 的 编程 范式 约束 了 每 次 迭代 需要 由 一 个 MapReduce 的 Hadoop 
Job 来 完成 。 如 图 10-3 所 示 ，Map 读 入 训练 数据 和 模型 ， 并 在 分 块 数据 
集 上 计算 统计 量 ; Reduce 聚 合 统计 量 并 更 新 模型 。 由 于 Map 将 训练 数 
据 从 磁盘 读 入 时 产生 大 量 UO， 所 以 在 Hadoop 平 台 上 进行 一 次 迭 代 的 代 
价 非常 昂 贯 。 单 轮 友 代 时 间 无 法 优化 ， 想 降低 模型 训练 的 时 间 只 能 减 
少 模型 训练 的 迭 代数， 这 了 束 产 生 了 以 上 所 说 的 工业 界 间 用 的 模型 训练 
思路 。 

(1) 降低 模型 训练 次 数 ， 通 过 特征 侧 的 方法 来 捕捉 信号 的 快速 变 
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(3) 精心 设计 最 优化 算法 如 ADMM'， 降 低 模 型 收敛 所 需 的 迭代 
如 果 能 降低 每 轮 迭 代 的 开销 ， 模 型 训练 的 总 时 间 也 能 得 到 大 幅 的 
优化 ， 于 是 便 出 现 了 Spark 这 样 的 平台 。Spark 是 将 数据 集 缓存 在 分 布 式 
内 存 中 的 计算 平台 ， 如 果 数 据 集 的 规模 能 够 控制 在 内 存 中 ， 那 么 即使 
仍然 采用 MapReduce 范 式 求解 ， 由 于 每 轮 迭 代 不 需要 通过 磁盘 IO 读 
取 数 据 ， 从 而 大 幅 降 低 了 单 轮 迭代 时 间 。 应 该 说 ，Spark 的 出 现 使 得 像 
点 击 率 预测 这 种 迭代 求解 的 模型 有 了 更 好 的 计算 平台 ， 也 逐渐 在 这 些 
中 等 数据 规模 的 应 用 上 有 替代 MapReduce 的 趋势 。 
Spark 最 方便 的 编程 语言 是 Scala， 下 面 给 出 LR 模型 训练 在 Spark 平 
台 下 的 参考 Scala 代 码 。 
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5. 基 于 MPI 的 模型 优化 

MPI (Message Passing Interface) 是 基于 消息 传递 函数 库 的 标准 规 
Yi, MPICH2 是 MPI 编 程 规范 的 常用 实现 ， 人 允许 各 市 点 的 进程 之 间 在 
任何 时 刻 互相 通信 mm。 对 分 布 式 机 器 学 习 来 说 ，MPI 平 台 的 核心 在 于 扣 
供 了 Alireduce/Broadcast 范 式 ，Allreduce 范 式 可 以 实现 大 部 分 批 处 理 迭 
代 的 机 器 学 习 算 法 ， 同 时 避免 了 MapReduce 编 程 范 式 下 每 次 迭代 之 间 磁 
盘 读 写 数据 的 开销 。 在 MPI 编程 方式 下 ， 机 妖 学 习 程 序 可 以 在 每 个 市 
点 的 内 存 中 保持 模型 ， 每 轮 迭 代 中 各 个 市 点 计算 好 需要 的 统计 量 后 ， 
各 个 节点 通过 Allreduce 通 信 得 到 全 局 统计 量 ， 之 后 进行 下 一 轮 迭 代 ， 
迭代 之 间 不 需要 资源 的 重新 分 配 。 

在 Spark 的 最 新 版 本 中 ，Allreduce 的 Spark 实 现 treeAggregate 已 经 在 
逐渐 成 熟 。 这 里 为 了 开拓 思路 ， 以 在 YARN 上 实现 了 Allreduce 范式 并 
可 容错 的 开源 库 Rabit 为 例 来 介绍 MPI 程序 的 开发 思路 。 事 实 上 ， 
YARN 的 出 现 就 是 鼓励 大 家 基于 不 同 的 算法 抽象 开发 自己 的 计算 框 
架 。MapReduce、Storm 和 Spark 等 计算 框架 均 可 运行 在 YARN 之 上 。 

尽管 对 于 机 器 学 习 来 说 Allreduce 范式 是 一 个 更 好 的 选择 ， 但 是 
MPICH2 没有 提供 容错 的 功能 ， 一 旦 集群 中 一 个 节点 宕 机 后 ， 整 个 程 
序 必须 从 头 开始 计算 。Rabit 为 了 解决 容错 的 问题 ， 只 实现 MPI 的 一 个 
包含 Allreduce 的 子 集 ， 容 错 难度 降低 了 很 多 。 另 外 ， 大 多 数 公司 数据 
存储 都 依赖 于 Hadoop ， 在 MPI 集 群 和 Hadoop 之 间 调 度数 据 成 了 高 效 处 
理 数 据 的 障碍 。 而 Rabit 兼 容 YARN 平 台 ， 可 以 直接 读 取 HDFS 上 的 数 


据 ， 解 决 了 存储 的 问题 。 下 面 给 出 基于 Rabit 的 LR 代 码 片 段 ， 可 以 看 
到 ， 相 对 于 MapReduce 来 说 ， 分 布 式 的 MPI 代 码 可 以 很 容易 从 单机 代码 
上 迁移 。 


void lr.eval(const Veck x, double & f x, Vec & df.x, ... 


{ 


// 全 代码 处理 数据 


vector<Instance> dataset = get dataset(); 


int instance num = dataset.size(); 
double loss = 0.0; 


for(Instance instance :dataset) 


{ 


10 loss += calloss(instance, x); 


cc co TF oo c A CO BOD Lm 


ll Ves df x instance = calGrad (instance, x); 

12 plusAssign(df x,1, df x instance); 

13 } 

14 | 。// 全 局 各 个 节点 梯度 求 和 ， 并 通信 返回 给 名 个 节点 

15 rabit::AllReduce<rabit::op::Sum>(df_x,df_x.size()); 


17 // 增加 正则 项 

18 if(rabit::GetRank == 0){ 

19 double regular = lambda * square( norm 2(x)); 
20 f_x = loss/m + regular ; 

21 }else{ 

22 f x = loss/n; 

23 } 

24 | 。 /全 局 名 个 节点 1088 求 和 ， 并 通信 返回 给 各 个 节点 

20 rabit::AllReduce<rabit::op::Sum>(&f_x, 1); 


13.5.3 点 击 : 的 校正 


点 击 率 预 测 问题 有 一 个 数据 上 的 挑战 ， 束 是 正 例 和 负 例 样本 产 重 
不 均衡 ， 特 别 是 在 展示 广告 点 击 率 只 有 于 分 之 几 的 情况 下 。 在 很 多 建 
模 方 法 中 ， 这 样 产 重 的 不 均衡 会 市 来 模型 舍 计 上 的 问题 ， 我 们 仍然 以 
LR 模 型 为 例 ， 讨 论 一 下 模型 存在 侦 关 的 原因 以 及 相应 的 校正 方法 。 

扩 击 率 模型 可 能 存在 偏差 的 原因 如 图 13-5 所 示 。 假 设 分 别 用 两 个 高 
斯 分 布 来 描述 h=0 和 h=1 情 形 下 的 特征 分 布 。 熟 悉 统计 的 读者 都 知道 ， 
高 斯 分 布 方差 的 最 大 似 然 佑 计 是 有 偏 的 (为 了 得 到 方差 的 无 偏 估 计 ， 
需要 将 样本 数目 减 去 1 来 计算 方差 ) ， 而 这 一 偏差 的 方向 是 对 方差 有 所 
低 佑 ， 并 且 样 本 数目 越 少 ， 低 售 越 关 重 。 由 于 h=1 时 的 数据 量 远 远 小 于 
h=0 时 的 数据 量 ， 对 前 着 的 方 鞭 低估 束 会 更 疗 重 ， 对 应 图 13-5 所 示 ， 前 
者 的 分 布 《 右 侧 的 高 斯 分 布 ) 会 变 得 更 罕 一 些 。 加 入 用 这 两 个 最 大 似 
然 估计 的 高 斯 分 布 来 决定 h=0 fü h-1 两 个 类 的 边界 点 ， 就 会 出 现 比 实 
际 边界 点 向 右 偏 移 的 情况 。 这 也 就 意味 着 更 多 的 样本 被 分 到 了 h=0 这 个 
类 中 ， 或 者 说 意味 着 点 击 率 将 会 被 系统 性 地 低估 一 些 。 这 里 的 解释 虽 
然 只 是 示意 性 的 ， 却 与 LR 模 型 中 点 击 率 估计 有 偏 的 原因 基本 一 致 。 


图 13-5 正 负 例 样本 不 均衡 时 点 击 率 模型 存在 偏差 的 原因 示意 
所 幸 消 除 这 一 后 击 率 估计 的 偏差 并 不 十 分 困难 ， 实 际 上 对 此 偏差 


的 系统 性 分 析 可 以 上 升 到 广义 线性 模型 的 层次 来 研究 。 在 LR 模型 情况 
下 ， 有 关 这 一 系统 偏差 的 量化 计算 和 校正 方法 可 以 参见 参考 文献 [47] 中 
的 详细 介绍 。 
13.5.4 点 击 率 模型 的 特征 

上 一 节 主 要 讨论 的 是 点 击 率 预 测 模型 侧 的 问题 ， 这 一 节 我 们 来 看 
特征 侧 的 问题 。 从 受众 定向 得 到 的 所 有 t (a, u, c) 以 及 这 些 特征 的 运 
算 ， 可 以 组 合 出 大 量 的 特征 供 模 型 选择 ， 这 是 大 多 数 机 器 学 习 问 题 共 
同 的 方法 。 这 样 的 特征 生成 方法 是 点 击 率 特征 的 基础 方法 ， 不 过 在 广 
告 这 样 的 问题 中 也 遇 到 一 些 挑战 : 一 是 组 合 特征 数量 可 能 巨大 ， 使 得 
模型 的 参数 数目 也 非常 大 多 ， 工 程 上 参数 更 新 和 在 线 计算 都 需要 比较 
高 效 的 设计 ; 二 是 模型 动态 性 的 本 质 要 求 参 数 快速 更 新 ， 而 在 多 台 
告 投 放 机 之 间 协 同 进行 在 线 学 习 并 非 易 事 。 


点 击 率 预 测 问 题 的 主要 挑战 在 于 如 何 使 模型 能 捕捉 高 度 动 态 的 市 
场 信号 ， 以 达到 更 准确 预测 的 目的 。 这 一 挑战 可 以 用 在 线 的 模型 学 习 
算法 ， 或 者 用 快速 更 新 的 动态 特征 来 解决 ， 从 方法 论 上 说 ， 这 两 种 思 
路 是 对 偶 的 ， 但 我 们 将 重点 放 在 第 二 种 思路 ， 因 为 其 工程 扩展 上 更 方 
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为 什么 广告 展示 的 决策 可 以 提取 出 大 量 的 特征 呢 ? 这 是 因为 在 
(a, u, c) 三 个 维度 上 ， 都 存在 着 人 为 指定 或 机 器 生成 的 多 种 标签 ， 
这 些 标签 有 的 相互 独立 ， 也 有 的 存在 一 定 的 层级 关系 。 比 如 以 a 上 的 标 
签 为 例 ， 我 们 介绍 过 ， 在 广告 运营 当中 ， 广 告 会 被 组 织 成 广告 主 、 广 
告 计划 、 广 告 组 、 广 告 创意 这 儿 个 层次 。 在 预测 的 过 程 中 ， 这 样 的 层 
级 结构 对 于 更 稳健 地 估计 某 个 广告 ， 特 别 是 新 广告 的 点 击 率 有 非常 大 
的 帮助 。 如 图 12-2 所 示 ， 将 t (a) ^t u) ^t (c) 以 及 t (a，u) 等 各 
种 标签 任 取 一 个 或 两 个 ， 都 可 以 都 造 出 一 个 点 击 率 模型 的 特征 ， 例 如 
下 面 的 一 些 例子 : 


(cookie (u) =*};{creative (a) =*};{gender (u) =*}; 


{gender (u) -*&&topic (a) =*};{location (c) =*&&advertiser 
(a) =*}; 

{category (a) =category (a) =*} 

这 些 例子 中 的 前 三 个 是 某 个 单个 标签 的 取 值 生成 的 ， 其 对 应 的 特 
征 总 量 等 于 这 些 标 俭 的 取 值 实例 总 量 ， 中 间 的 两 个 ， 是 将 上 下 文 或 用 


户 的 某 个 标签 与 广告 的 某 个 标签 组 合生 成 的 ， 其 对 应 的 特征 总 量 等 
这 两 侧 标签 的 取 值 可 能 性 总 量 的 乘积 ， 最 后 一 个 ， 是 常用 的 符 征 ， 它 
表示 的 是 广告 和 用 户 的 某 个 标签 相 匹 配 。 显然 ， 由 于 组 合 特 征 的 存 
在 ， 可 选 的 特征 总 量 巨 大 ， 对 应 的 模型 维度 也 非常 高 。 直 接生 成 所 有 
可 能 的 单 维度 特征 和 组 合 特征 ， 选 取出 现 频次 在 一 定 装 值 以 上 的 ， 将 
其 作为 LR 模 型 的 特征 集合 。 这 样 的 特征 ， 我 们 称 为 静态 特征 ， 这 十 广 
各 点 击 率 模型 特征 生成 的 基本 方法 。 显 然 ， 静 态 特 征 都 是 取 值 为 0 或 1 
的 特征 。 

2. 动 态 特 征 

在 机 万 学 习 问 题 中 ， 有 一 项 很 重要 的 方法 论 ， 即 某 项 模型 侧 的 技 
术 ， 一 般 都 可 以 找到 特征 侧 的 对 偶 方 案 。 那 么 如 何 设 计 竺 征 方案 达到 
与 模型 快速 演进 类 似 的 效果 呢 ? 当然 就 是 让 特征 变 成 快速 演进 的 。 如 
何 才 能 让 特征 “ 动 ” 起 来 呢 ? 办 法 也 很 简单 : 当 某 个 组 合 特征 被 触发 
时 ， 我 们 不 再 用 1， 而 是 采用 这 个 组 合 历 史上 一 段 时 期 的 点 击 率 作 为 其 
特征 取 值 。 这 样 一 来 ， 即 使 是 同一 个 t (a, u, c) ， 在 不 同 的 时 间 
点 ， 其 所 对 应 的 特征 取 值 也 是 不 同 的 ， 这 样 的 特征 器 是 动 仿 特征 。 

可 以 这 样 理解 采用 历史 点 击 率 作 为 动态 特征 : 我 们 最 终 预 测 的 是 
某 个 特定 (a, u c 上 的 点 击 率 ， 而 某 个 组 合 特征 t (a, u, c) 上 的 
扩 击 率 可 以 认为 是 天 于 最 终 目 标的 一 个 弱 决 策 髓 。 通 过 对 这 些 对 应 特 
征 组 合 的 弱 决 策 器 的 融合 ， 可 以 更 容易 地 预测 该 (a, u, c) 上 的 点 击 
率 。 这 样 的 方案 有 个 最 大 的 好 处 ， 那 吏 是 这 些 弱 决策 本 身 只 需要 简单 


的 数据 统计 就 可 以 得 到 ， 而 不 需要 复杂 的 训练 过 程 。 因 此 ， 通 过 这 些 
简单 的 弱 决 策 器 来 捕捉 模型 的 动态 部 分 ， 整 体 的 融合 模型 惑 可 以 不 必 
那么 快速 地 更 新 了 。 

使 用 动态 特征 的 另 一 个 好 处 是 可 以 大 大 减少 模型 的 参数 数目 : 对 
于 (geo (c) = 北京 &&category (a) = 电 商 } 和 (geo (c) = 北京 && 
category (a) = 日 化 } 这 两 个 特征 组 合 的 具体 实例 而 言 ， 如 果 采 用 静态 
特征 方案 ， 需 要 对 这 两 个 实例 分 配 不 同 的 特征 号 ; 而 采用 动态 特征 方 
案 时 ， 由 于 它们 等 号 前 的 部 分 都 相同 ， 因 此 可 以 在 模型 中 共享 同一 个 
特征 参数 ， 而 通过 不 同 实例 的 不 同 特征 取 值 来 分 辨 它们 。 这 样 一 来 ， 
整体 模型 的 参数 个 数 就 由 各 种 维度 组 合 总 的 实例 数目 降 到 了 维度 组 合 
的 种 类 数目 ， 其 离线 估计 和 在 线 计算 都 会 大 为 简化 。 

3. 位 置 偏差 与 CoEC 

使 用 动态 特征 在 实际 操作 中 还 会 磁 到 一 些 困 难 ， 特 别 是 当 广告 主 
数量 不 充分 的 时 候 。 假 设 某 广告 网 络 有 两 个 广告 位 ， 一 个 是 某 网 站 首 
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直接 的 反馈 ， 前 儿 天 更 多 地 投 在 第 一 个 广告 位 的 广告 会 表现 出 更 好 的 
效果 ， 而 这 主要 是 由 于 位 置 种 来 的 偏差。 

除了 广告 位 位 置 ， 还 会 有 其 他 一 些 非 定向 因素 对 点 击 率 有 比较 大 
的 影响 ， 主 要 的 有 广告 位 尺寸 、 广 告 位 类 型 (如 门户 首页 、 频 道 首 
页 、 内 容 页 、 客 户 端 ) 、 创 意 类 型 (如 图 片 、Flash、 富 媒体 ) 、 操 作 
系统 、 浏 览 右 、 日 期 和 时 间 等 。 所 有 这 些 因素 ， 都 与 广告 决策 没有 关 


系 ， 但 是 对 点 击 率 的 影响 要 远 远 超过 定 癌 撤 术 市 来 的 影响 。 因 此 ， 在 
这 些 因素 上 占据 优势 的 广告 ， 其 点 击 率 会 被 请 重 高 估 ， 如 有 果 直 接 用 点 
击 率 作为 反馈 ， 也 会 造成 强 者 您 强 的 马 太 歼 应 。 

如 何 去 除 位 置 等 因 妹 的 影响 呢 ? 如 采 我 们 有 财力 和 人 力 ， 可 以 采 
用 眼球 跟踪 的 设备 来 评估 用 户 对 页 面 上 广告 位 的 关注 程度 ， 在 后 续 的 
统计 中 据 此 做 归 一 化 。 对 于 一 些 极 天 键 的 页 面 ， 如 搜索 广告 结果 页 ， 
这 样 做 是 值得 和 可 行 的。 但 对 于 大 量 展 示 广 告 的 广告 位 来 说 ， 这 样 做 
显然 不 切实 际 。 工 程 上 一 种 合理 的 办 法 是 将 某 广 告 位 相当 长 一 段 时 期 
内 的 平均 点 击 数 作为 其 关注 程度 的 近似 评估 ， 我 们 把 这 一 指标 称 为 期 
ZH AH (expected click) ° 

期 望 点 击 要求 评 佑 的 是 在 广告 质量 完全 随机 的 情况 下 ， 广 告 位 或 
其 他 属性 对 应 的 平均 点 击 率 。 要 严格 达到 此 目的 ， 需 要 采用 随机 出 广 
告 的 策略 进行 小 流量 测试 ， 而 这 也 只 能 用 于 搜索 广告 等 因素 简单 且 非 
常 重要 的 页 面 。 在 多 个 因素 共同 作用 或 广告 环境 比较 复杂 的 情况 下 ， 
可 以 采用 从 数据 中 近似 地 学 习 出 期 望 点 击 的 方法 。 该 方法 概念 上 很 简 
单 ， 只 用 那些 偏差 因素 作为 特征 ， 训 练 一 个 点 击 率 模型 ， 这 个 模型 称 
为 偏差 模型 (bias model) 。 这 里 的 偏差 因素 指 的 是 那些 与 广告 决策 无 
天 的 特征 ， 这 些 特 征 一 般 来 说 与 广告 a 无 天 。 仿 差 模型 可 以 概念 性 地 
表示 为 


pins (1h C) = piis (A= 1 


u, c) (13.18) 


偏差 模型 的 形式 和 训练 方法 都 可 以 与 前 面 介绍 的 整体 点 击 率 模型 
一 致 。 需 要 注意 的 是 ， 偏 差 模型 需要 用 比 一 般 点 击 率 模型 更 长 时 间 的 
数据 来 训练 ， 这 样 做 的 目的 是 布 望 消除 某 段 时 期 广告 质量 市 来 的 影 
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得 到 了 偏差 模型 以 后 ， 可 以 定义 下 面 的 归 一 化 的 点 击 率 指标 : 


M h; 
> [bias (Us, Ci) 

这 一 指标 是 点 击 与 期 望 点 击 的 比值 ， 因 此 称 为 CoEC (Click on 
Expected Click) 。 由 于 在 分 母 上 考虑 了 位 置 以 及 其 他 因素 的 偏差 对 点 
击 率 的 影响 ， 这 一 指标 可 以 更 准确 地 表征 某 部 分 流量 上 广告 投放 的 实 
际 点 击 率 水 平 ， 也 比较 适用 于 点 击 反馈 这 样 的 动态 特征 。 

采用 动态 特征 和 偏差 模型 的 工程 方案 ， 点 击 率 预测 模型 训练 的 流 
程 分 三 步 完 成 ， 首 先 ， 用 较 长 一 段 时 间 的 训练 数据 ， 只 提取 偏差 特征 
并 训练 偏差 模型 ， 然 后 ， 利 用 得 到 的 偏差 模型 计算 所 需 维 度 组 合 上 的 
CoEC 作 为 动态 特征 ， 最 后 ， 用 所 有 非 偏差 的 动态 特征 训练 整体 点 击 率 
模型 ， 其 中 用 偏差 模型 的 输出 作为 点 击 率 的 先 验 。 利 用 CoEC 特征 的 
点 击 率 模型 训练 流程 如 图 13-6 所 示 。 


CoEC = (13.19) 
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图 13-6 利用 CoEC 特 征 的 点 击 率 模型 训练 流程 

4. 常 见 的 偏差 特征 

前 面 说 到 ， 除 了 位 置 ， 在 线 广 告 中 还 有 一 些 重 要 的 偏差 特征 是 建 
模 时 应 该 考虑 的 。 

(1) 广告 位 位 置 。 位 置 的 影响 在 搜索 广告 和 展示 广告 环境 下 有 一 
定 的 区 别 。 对 于 搜索 而 言 ， 页 面 布 局 人 简单， 位 置 相 对 稳定 ， 相 应 地 统 
计 也 比较 充分 ， 因 此 可 以 将 位 置 视 为 离散 的 变量 ， 分 别 计算 各 个 位 置 
的 EC。 而 对 于 展示 广告 ， 特 别 是 在 广告 网 络 环境 下 的 展示 广告 而 言 ， 
位 置 的 可 能 性 非常 多 ， 因 此 不 可 能 对 每 种 不 同 的 位 置 都 作为 独立 的 变 
量 来 考虑 。 比 较 合 理 的 方法 是 找 出 重要 影响 因素 ， 比 如 广告 位 中 心 相 
对 于 页 面 左 上 角 的 坐标 ， 用 这 样 的 连续 变量 作为 特征 来 训练 偏差 模 


型 。 


2) 广告 位 尺寸 。 尺 寸 与 上 面 说 的 位 置 因素 很 类 似 ， 在 创意 尺寸 
选择 比较 少 的 情况 下 ， 可 以 作为 离散 变量 来 处 理 ， 而 在 尺寸 选择 很 多 


的 情况 下 ， 也 可 以 用 长 宽 等 连续 变量 来 代替 。 对 于 搜索 广告 ， 由 于 各 
创意 斥 寸 一 致 ， 这 一 因素 的 影响 不 存在 。 

(3) 广告 投放 延迟 。 广 告 完成 决策 逻辑 ， 并 将 最 终结 果 返 回 给 用 
户 的 整体 时 间 长 短 对 点 击 率 有 着 非常 大 的 影响 。 如果 在 前 端 将 广告 请 
求 发 生 的 时 间 和 最 终 展 示 时 间 都 记录 下 来 ， 可 以 为 点 击 率 预 测 模型 提 
供 一 个 重要 的 偏差 特征 。 

(4) 日 期 和 时 间 。 工 作 日 还 是 周末 ， 对 不 同类 型 的 广告 (如 游 
戏 ) 点 击 率 有 着 明确 的 影响 ， 这 主要 是 由 于 在 不 同时 间 用 户 任务 的 集 
中 程度 不 同 ， 对 广告 的 关注 也 有 所 区 别 。 时 间 的 因素 ， 即 是 工作 时 间 
还 是 休闲 时 间 ， 也 有 着 类 似 的 特性 。 因 此 ， 日 期 和 时 间 一 般 来 说 也 是 
必须 要 考虑 的 偏差 特征 。 除 了 在 模型 中 显 式 利用 ， 往 往 还 要 求 所 有 的 
训练 过 程 都 覆盖 7 天 的 整数 倍 的 数据 ， 其 日 的 也 是 为 了 避免 日 期 市 来 的 
偏差 。 

(5) 浏览 器 。 浏 览 器 本 身 并 不 对 广告 效果 有 明确 的 影响 ， 不 过 由 
于 各 个 浏览 器 上 AD Blocker 的 履 盖 程度 有 和 较 大 区 别 ， 因 此 在 实际 建 模 
中 其 影响 也 相当 大 。 

上 面 列举 的 几 项 都 是 在 通用 的 广告 系统 中 最 表 见 的 侦 差 特征 ， 也 
是 建 模 时 需要 首先 考虑 的 ， 读 者 需要 结合 具体 的 广告 产品 ， 按 照 “ 去 除 
与 广告 决策 无 天 的 影响 因素 ”这 一 原则 来 确定 和 使 用 仿 差 特征 。 

5. 扩 击 有 反馈 的 平 背 


用 CTR 或 CoEC 这 样 的 点 击 反馈 作为 动态 特征 ， 大 量 的 长 尾 组 合 特 
征 对 于 准确 地 预测 点 击 率 有 很 大 帮助 。 但 是 要 利用 好 这 些 长 尾 组 合 特 
征 ， 还 需要 解决 一 个 问题 ， 就 是 在 统计 不 足 的 维度 组 合 上 如 何 稳健 地 
统计 CTR 或 CoEC。 

以 CTR 为 例 ， 公 式 13.7 给 出 了 点 击 的 生成 模型 ， 点 击 率 就 是 这 一 模 
型 的 参数 。 在 知道 每 次 展示 点 击 与 否 的 情况 下 ， 可 以 得 到 参数 p 的 最 大 
似 然 估计 为 : 


i= 5 hN (13.20) 

其 中 N 为 总 的 展示 数 。 当 估计 某 些 数据 不 足 的 维度 组 合 上 的 点 击 
率 时 ， 一 般 的 思路 是 在 分 子 分 母 上 各 加 一 个 常量 ， 以 起 到 平滑 的 作 
用 : 


fl = (e+》 hi)/Q+N) (13.21) 
BEA, oly 应 该 等 于 某 更 大 流量 范围 内 的 平均 点 击 率 。 可 是 和 
y 的 绝对 数值 束 没 有 太 直 观 的 方法 可 以 设置 。 根 据 10.3.3 PANA, E 
可以 采用 经 验 贝 叶 斯 的 方法 来 解决 这 个 问题 。 
在 贝 叶 斯 的 框架 下 ， 可 以 把 php 看 成 随机 变量 ， 由 于 公式 13.7 是 一 个 
一 项 分 布 ， 其 参数 h 对 应 的 共 斩 先 验 是 Beta 分 布 ， 即 ， 
l'(o 4- B) 
T'(a)T() 


plula, 8) = Beta(u|a, 8) = po es) (13.22) 


HBR a 和 其 实 就 对 应 于 公式 13.21 中 的 a 和 y-a。 可 以 采用 经 验 
贝 叶 斯 的 方法 来 估计 a 和 B。 将 公式 13.7 和 公式 13.22 代 入 公式 10.28 给 
的 一 般 指数 族 分 布 经 验 贝 叶 斯 解 ， 可 以 得 到 解 a 和 PB 的 具体 EM 算法 : 


E-step 
Np Np 
d =a +) hpi, Be = gu. ^ -) «| (13.23) 
i=l i=] 
M-step 
yl we Wla oe" + pr) = po ja (ag + fold) (13.2 4) 
1 K 
„h f anew new ii gu A z0ld , old 9 OF 
vB") -pa +p “Ke VAr -Yk + Be) (13.25) 


— — P Ó 
一 方程 组 用 数值 方法 求解 并 不 难 。 


13.5.5 点 击 : J 评测 


点 击 率 模型 预测 的 是 点 击 事件 出 现 的 概率 ， 因 此 可 以 采用 准确 率 / 
HER (Precision/Recall, PR) 曲线 或 接收 机 操作 特性 (Receive 
Operating Characteristic, ROC) 曲线 来 评测 。 这 两 个 曲线 实际 上 是 对 同 
样 一 组 统计 数据 不 同 侧面 的 表现 : 点 击 率 模型 是 一 个 对 点 击 事件 进行 
预测 的 模型 ， 因 此 ， 对 任何 一 个 样本 实例 ， 存 在 下 面 四 种 情况 。 


(1) 点 击 行为 被 预测 为 点 击 行为 ， 其 数目 计 为 n,。 
(2) 点 击 行为 被 预测 为 非 点 击 行为 ， 其 数目 计 为 n,。 
(3) 非 点 击 行为 被 预测 为 点 击 行为 ， 其 数目 计 为 n,。 


(4) 非 点 击 行为 被 预测 为 非 点 击 行为 ， 其 数目 计 为 n,。 
对 于 这 四 个 数值 ， 有 两 种 常见 的 视角 : 一 是 观察 Recall=n/ 
(ntn,) 和 Precision=n/ (n+n,) 的 关系 ， 二 是 观察 True Positive 
Rate-n/ (n+n,) (实际 上 True Positive Rate 和 Recall 是 一 样 的 ) 和 
False Positive Rate=n/ (n,+n,) 的 关系 。 当 然 ， 是 否 被 预测 为 点 击 是 针 
对 某 个 点 击 概率 的 阔 值 而 言 的 ， 因 此 ， 通 过 取 不 同 的 阐 值 ， 束 可 以 得 
到 一 条 Precision/Recall 曲线 或 者 是 True Positive Rate/False Positive Rate 
的 曲线 ， 前 者 即 为 PR 曲线 ， 而 后 者 就 是 ROC 曲线 。 为 了 方便 理解 ， 
我 们 把 上 述 的 几 个 基本 量 直 观 地 表示 在 图 13-7 中 。 


标注 


图 13-7 点 击 率 模型 评测 硝 干 统计 量 
实际 的 PR 曲线 可 以 参见 图 13-8 UE) 。 一 般 来 说 ，PR 曲 线 呈 下 降 
的 趋势 ， 不 过 这 并 没有 理论 上 的 保证 ， 实 际 数据 上 局 部 呈 s 上 升 趋势 的 


PR 曲线 也 很 常见 。 对 广告 而 言 ， 应 该 更 加 关注 PR 曲线 的 头 部 ， 因 为 尾 
部 是 Recall 比 较 高 ， 也 就 是 很 多 广告 候选 都 被 考虑 时 的 情形 ， 而 实际 的 
投放 环境 中 ， 只 选择 排名 最 好 的 一 个 或 几 个 候选 。 另 外 一 点 需要 注意 
的 是 ，PR 曲 线 下 面 的 面积 是 没有 明确 的 物理 意义 ， 因 此 不 能 作为 有 价 
值 的 指标 来 衡量 。 

实际 的 ROC 曲 线 可 以 参见 图 13-8 (A) 。 一 般 来 说 ，ROC 曲 线 呈 
上 升 的 趋势 ， 不 过 这 一 点 同样 没有 理论 上 的 保证 。 与 PR 曲线 不 同 ， 
ROC 曲 线 下 的 面积 有 明确 的 物理 意义 ， 它 在 一 定 程度 上 表征 了 对 h=0 和 
h=1 事 件 估计 值 排序 的 正确 性 。 我 们 把 ROC 曲 线 下 的 面积 称 为 曲线 下 面 
H (Area Under Curve, AUC) ， 这 是 评价 点 击 率 模型 时 常用 的 量化 指 
标 。AUC 虽 然 经 常 被 用 作 点 击 率 模型 的 质量 代表 ， 却 有 一 个 问题 要 引 
起 注意 ， 那 就 是 即使 只 用 偏差 模型 ， 即 对 广告 排序 无 直接 贡献 的 模型 
来 预测 点 击 率 ，AUC 往 往 也 处 于 比 随机 猜测 高 得 多 的 水 平 上 ， 如 图 13- 
8 中 所 示 。 因 此 ， 模 型 对 广告 排序 的 作用 需要 对 这 两 个 AUC 的 差 值 做 评 
估 才 能 比较 公允 地 加 以 衡量 。 
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图 13-8 PR 曲线 (Ze) 与 ROC 曲 线 CR) 示例 

无 论 是 计算 ROC 曲 线 还 是 PR 曲线 ， 都 是 要 统计 上 述 的 nm ,这 组 
值 。 严 格 的 统计 方法 需要 对 整个 测试 集 按 照 模型 估算 的 点 击 率 排 序 ， 
不 过 这 样 的 计算 复杂 度 为 O (logn) ”(n 为 测试 集 的 样本 数目 ) ， 显 
然 在 测试 样本 量 较 大 时 无 法 实用 。 因 此 ， 可 以 采用 近似 但 对 实用 来 说 
足够 精确 的 方法 ， 即 将 整个 点 击 率 的 取 值 范围 划分 成 一 组 区 间 ， 并 在 
每 个 区 间 上 得 到 一 个 曲线 点 。 此 方法 的 原理 与 12.3.4 节 中 reach/CTR 曲 
线 的 生成 方法 是 一 致 的， 可 以 参考 该 节 的 介绍 。 


13.5.6 智能 频次 


第 4 章 介绍 过 频次 控制 的 问题 。 在 竞价 广告 环境 下 ， 这 一 问题 有 些 
变化 。 合 约 式 广告 中 ， 由 于 广告 主 对 于 位 置 可 以 由 合约 控制 ， 因 而 可 
以 在 某 个 特定 的 位 置 上 设 定 展示 频次 ， 这 一 点 在 按 GD 方 式 售 卖 的 视频 
前 贴 片 广告 中 应 用 最 为 广泛 。 但 是 在 广告 网 络 情形 下 ， 由 于 广告 主 的 
创意 可 能 出 现在 各 种 媒体 的 各 种 位 置 上， 不 同位 置 的 有 效 展示 有 相当 
大 的 差别 。 因 此 ， 简 单 设 定 一 个 展示 数目 上 的 频次 来 控制 用 户 的 接触 
次 数 是 不 太 合 理 的 。 

在 这 种 情况 下 ， 需 要 一 个 更 智能 的 频次 控制 方案 。 最 直接 的 思路 
是 利用 13.5.4 节 中 介绍 的 EC 概念 。 由 于 EC 从 某 种 程度 上 更 接近 于 有 效 
展示 数目 ， 可 以 采用 EC 上 的 累积 计数 代替 频次 来 控制 用 户 接触 次 数 。 
我 们 把 这 种 方案 叫 作 智 能 频次 控制 。 

在 品牌 广告 和 效果 广告 两 种 情况 下 ， 智 能 频次 控制 的 做 法 也 有 所 
不 同 : 在 效果 广告 中 ， 可 以 将 EC 的 计数 或 者 频次 的 计数 作为 点 击 率 预 
测 模型 的 特征 直接 加 入 训练 ， 靠 点 击 率 模型 的 作用 降低 出 现 频次 过 高 
的 创意 的 竞争 力 ; 在 品牌 广告 中 ， 可 以 通过 EC 计数 上 的 直接 控制 达到 
一 定 用 户 接触 程度 的 目的 ， 由 广告 主 来 直接 设 定 虽 。 

竞价 广告 精细 的 效果 要 求 让 我 们 认 请 了 频次 的 本 质 : 它 与 其 他 影 
响 点 击 率 的 特征 是 平等 的 ， 并 且 应 该 放 在 统一 的 、 数 据 驱 动 的 计算 框 
架 下 加 以 利用 。 而 究竟 对 某 个 创意 应 该 将 频次 控制 在 多 少 ， 也 不 应 该 
是 根据 经 验 设 定 ， 而 是 应 该 放 在 竞价 的 环境 中 自行 决定 。 


13.6 探索 与 利用 


在 点 击 率 预 测 中 ， 我 们 需要 采取 或 是 模型 、 或 是 特征 上 的 手段 来 
捕获 动态 信息 。 这 也 就 意味 着 ， 对 某 种 类 型 的 (a,，u，c) BA, WR 
没有 相关 历史 数据 的 支持 ， 很 难 对 其 合理 地 估计 点 击 率 。 由 于 线 上 我 
们 总 是 使 用 统计 上 最 优 的 策略 来 投放 广告 ， 那 些 非 最 优 的 组 合 出现 机 
会 很 少 ， 因 而 对 这 部 分 的 估计 也 就 不 准确 。 实 际 上 ， 无 法 对 特征 空间 
均匀 采样 构造 训练 集 ， 是 互联 网 问题 区 别 于 其 他 机 器 学 习 问 题 的 重要 
特点 。 

此 问题 属于 强化 学 习 的 范畴 。 直 觉 的 想法 是 牺牲 一 部 分 流量 上 
eCPM 最 优 的 策略 ， 采 用 相对 随机 的 策略 采样 那些 效果 未 知 的 特征 空 
间 ， 这 称 为 探索 (exploration) 过 程 ， 再 根据 探索 和 正常 决策 的 总 体 流 
量 更 有 效 地 预测 点 击 率 ， 这 称 为 利用 (exploitation) 过 程 。 这 样 的 整体 
策略 称 为 探索 与 利用 ， 即 E&E 。E&E 可 以 形象 地 类 比 成 玩 老 虎 机 时 的 
决策 问题 : 玩家 面 对 老 虎 机 上 A 个 有 不 同期 望 收益 的 手柄 ， 需 要 用 尽 可 
能 少 的 筹码 探索 出 收益 最 高 的 那个 手柄 ， 然 后 利用 这 个 结果 去 获取 回 
报 。 这 种 简单 的 A 中 选 1 的 研究 问题 也 称 为 多 臂 老虎 机 (Multi-Arm 
Bandit, MAB) 四 问题 。 我 们 来 看 看 MAB 问 题 的 数学 描述 。 

假设 有 A 个 手柄 aE{1，2，…，A} (这 里 的 手柄 是 广告 ) ， 在 每 个 
决策 时 刻 i (对 应 于 广告 展示 ) ， 必 须 从 A 个 手柄 中 选择 一 个 ， 而 目标 
是 优化 许多 次 决策 后 的 整体 收益 。 每 个 广告 a 在 第 i 次 展示 的 收益 计 为 
(a) ， 对 于 不 同 的 1i， 这 些 收益 是 独立 同 分 布 的 。 在 计 刻 ， 用 下 面 的 


两 个 量 来 分 别 表示 该 分 布 的 均值 hr (a) i 与 方差 的 经 验 估计 (此 处 先 不 
考虑 u 和 c 的 影响 ) : 
ri(a) = yr r(a) Vila) $ Tno - r;a) (13.26) 
最 优 的 手柄 或 广告 定义 为 期 望 收益 最 高 的 那个 : 
a” = arg max(r(a)) (13.27) 
MAB 问 题 有 一 个 简单 的 基础 方法 ， 即 总 是 用 比例 为 + 的 一 小 部 分 流 
量 来 做 探索 ， 在 探索 流量 上 随机 选择 A 个 广告 中 的 一 个 ; 在 剩余 的 1- 
比例 的 流量 上 ， 总 是 选择 经 验收 益 最 高 的 那个 广告 。 这 样 的 基础 方法 
称 为 + 贫 禁 法 。 很 显然 ， 只 要 经 过 足够 多 次 的 答 试 ，+ 贫 禁 法 是 一 定 可 
以 找到 最 优 的 那个 手柄 的 。 既 然 如 此 ， 还 有 什么 深入 研究 的 必要 呢 ? 
我 们 当然 是 布 望 能 够 以 更 小 的 代价 找到 最 优 手 柄 。 这 里 的 代价 定义 为 
整个 过 程 的 回报 与 一 开始 就 总 是 选择 最 优 手 柄 这 一 策略 的 回报 差 值 ， 
即 探 索 所 付出 的 代价 。 对 于 一 次 选择 广告 的 展示 ， 这 一 代价 数学 上 的 
AA 
Aq = (r(a*)) — (r(a)) (13.28) 
而 E&E 过 程 的 目标 就 是 使 得 整体 的 代价 (Regret) 最 低 。 以 n (a) 
表示 到 i 时 刻 为 止 分 配给 a 的 展示 数 ， 则 整体 代价 可 以 写成 : 


i= n;(a) Aq (13.29) 


假设 总 共 需 要 进行 T 次 展示 决策 ， 探 索 一 些 系统 性 的 方法 ， 使 得 我 
们 在 对 最 优 广 告 a* 没 有 先 验 了 解 的 情形 下 ， 以 比较 低 的 代价 完成 这 一 过 
程 ， 是 这 个 问题 研究 的 目标 。 这 需要 借鉴 类 似 于 贝 叶 斯 学 习 的 思想 ， 


即将 估计 的 不 确定 性 引入 解决 方案 中 ， 下 面 介绍 一 些 典 型 的 方法 。 
13.6.1 UCB 方法 


MAB 问 题 经 典 的 思路 是 置信 上 界 (Upper Confidence Bound , 
UCB) 方法 。 此 方法 在 每 次 投放 时 不 是 简单 地 选择 经 验 上 最 优 的 广 
告 ， 而 且 考 虑 到 经 验 估 计 的 不 确定 性 ， 进 而 选择 估计 值 有 可 能 达到 的 
上 界 最 大 的 那个 广告 。 

根据 这 一 思路 ， 在 每 个 决策 点 ，UCB 的 过 程 主 要 分 成 两 个 步 又: 
首先 根据 过 去 的 观测 值 ， 利 用 某 种 概率 模型 计算 出 每 个 a 的 期 望 回报 的 
UCB; 然后 ， 选 择 UCB 最 大 的 a。 可 以 看 出 ， 这 一 算法 的 关键 在 于 如 何 
计算 UCB。 参 考 文献 [4] 中 给 出 了 一 种 称 为 B-UCB 的 策略 ， 是 按照 下 
式 计算 上 界 : 


2V, (a) log(B5 ') " 16log(8 1) 


Bus = (na) Nl (13.30) 
S Js 
Ru. P 
其 中 。 ”44s(s +1) 。 相 应 地 ， 在 任意 一 个 时 刻 1 RU 


要 选择 令 B，，(i-1 ) 最 大 的 a 即 可 。 


B-UCB 的 策略 并 不 对 回报 的 具体 参数 化 模型 表达 有 所 假设 ， 而 是 
仅 通 过 一 阶 和 二 阶 的 一 些 统计 量 来 完成 策略 ， 因 而 具有 比较 好 的 普 适 
性 。 这 一 策略 直觉 的 好 处 是 我 们 不 可 能 长 时 间 地 选择 错误 的 a， 参 考 文 
献 [和] 中 对 这 一 点 做 了 理论 上 的 探讨 。 遗 憾 的 是 ， 由 于 E&E 问 题 的 复杂 
性 ， 实 践 中 这 些 比 较 复杂 的 策略 并 未 体现 出 比 + 信 梦 法 明显 的 优势 ， 不 
过 这 样 的 思路 和 方法 还 是 值得 学 习 的 。 


13.6.2 Æ} bandit 


MAB 问 题 和 UCB 实 际 的 广告 问题 还 有 一 定 差 距 。 实 际 广 告 系 统 
的 主要 挑战 有 两 点 : 首先 ， 需 要 探索 的 是 (a, u, c) 这 一 组 合 空间 ， 
而 不 是 简单 的 一 组 广告 ， 这 使 得 探索 的 复杂 程度 大 大 上 升 。 以 展示 广 
告 为 例 ， 我 们 要 面临 的 实际 情况 是 数 十 万 的 广告 主 、 数 百 万 的 上 下 文 
页 面 以 及 数 以 亿 计 的 用 户 ， 即 使 将 这 些 信 息 按 某 种 层级 结构 聚合 起 
来 ， 其 组 合 可 能 性 仍然 相当 庞大 ， 对 探索 是 个 挑战 。 其 次 ， 对 (a, 
u, c) 的 某 一 具体 组 合 ， 并 不 像 前 文 假设 的 那样 有 一 个 确定 的 期 望 收 
益 ， 这 是 由 广告 问题 的 高 度 动态 性 决定 的 。 

对 于 需要 探索 的 空间 过 大 的 问题 ， 工 程 上 比较 常用 的 思路 是 将 此 
空间 参数 化 ， 在 一 个 维 数 较 低 的 连续 空间 中 进行 探索 。 这 样 的 E&E 问 
题 可 以 称 为 考虑 上 下 文 的 bandit (contextual bandit) 问题 。 注 意 这 里 说 
的 “上 下 文 ” 不 同 于 上 下 文 定向 中 提 到 的 “上 下 文 "， 此 处 是 指 根据 (a, 

co 组 合 参数 化 后 的 上 下 文 空间 位 置 。 


考虑 上 下 文 的 bandit 的 问题 ， 代 表 性 的 思路 有 LinUCB 方法 。 从 
名 字 束 可 以 了 解 到 ， 这 一 方法 是 将 公式 13.26 中 表达 的 回报 分 布 由 a 决 
定 ， 变 成 由 一 些 环境 特征 的 线性 组 合 决定 ， 也 就 是 说 ， 在 某 个 时 刻 t， 
我 们 将 某 个 a 的 期 望 回报 表达 成 : 
Pul a] = f (a, Ut, c1)07 (13.31) 

可 以 看 出 ， 这 样 的 表达 达到 了 两 个 目的 : 首先, 将 (a, u, c) 的 
组 合 空 间 ， 而 不 仅仅 是 a 都 纳入 了 探索 的 范围 以 内 ; 其 次 ， 用 线性 组 合 
的 连续 输出 代 蕉 了 离散 的 D 值 ， 使 得 E&E 过 程 可 以 在 如 此 巨大 的 至 
间 上 实施 。 在 参考 文献 [50] 中 ， 这 一 变换 模型 被 称 为 不 相交 的 线性 模型 
(disjoint linear model) ， 这 里 “不 相交 ”的 含义 指 的 是 对 于 每 一 个 广告 a 


适用 独立 的 线性 变换 参数 Ca。 细心 的 读者 一 定 会 发 现 ， 这 样 的 假设 在 
a 数量 巨大 时 也 会 成 为 障碍 ， 因 此 ， 在 实际 中 ， 也 可 以 在 广告 主 类 型 或 
其 他 聚合 粒度 上 使 用 不 同 的 变换 参数 。 


13.7 延伸 思 


1. 在 搜索 广告 中 ,广泛 匹 配 的 引入 会 给 位 置 担 卖 会 市 来 什么 样 的 影 
WE? 与 此 对 应 ， 可 能 在 机 制 设计 上 采取 什么 策略 ? 

2. 在 一 个 CPC/CPM 混 合 苋 价 的 广告 市 场 中 ，CTR 预 估 的 系统 仿 莽 
和 模型 误 夸 会 对 市 场 产生 什么 影响 ? 


本 书 由 l'ePUBw.COM | 整理 ，ePUBw.COM 提 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 14 章 程序 化 交易 核心 技术 


程序 化 交易 的 发 展 使 得 广告 市 场 发 生 了 深刻 的 变化 : 供给 方 的 功 
能 简化 成 了 简单 的 比价 平台 ， 而 需求 方 开始 承担 广告 决策 的 主要 职 
责 。 在 这 样 的 变化 下 ， 第 一 方 数据 、 第 二 方 数据 和 第 三 方 数 据 可 以 同 
时 为 广告 优化 服务 ， 于 是 广告 精准 化 、 实 效 化 的 趋势 与 越 来 越 显 著 。 
在 技术 层面 ， 这 样 的 变化 也 带 来 了 一 些 新 的 技术 挑战 。 
告 交 易 平 台 是 技术 挑战 相对 较 少 的 产品 ， 架 构 也 相对 人 简单。 其 
主要 技术 难点 在 于 如 何 用 可 行 的 成 本 处 理 大 流量 的 广告 请 求 ， 不 过 这 
并 不 是 一 个 独特 的 技术 问题 ， 因 此 在 此 不 做 过 多 讨论 。 本 章 主要 介绍 
两 点 相关 技术 : 一 是 各 广告 或 数据 产品 在 进行 用 户 身 份 对 应 时 的 cookie 
映射 方法 ， 二 是 如 何 优化 询 价 的 服务 成 本 ， 即 尽 可 能 只 向 那些 可 能 说 
得 拍卖 的 DSP 询 价 ， 这 也 是 第 11 章 介绍 的 在 线 分 配 框架 下 的 具体 问 
题 。 
在 所 有 在 线 广告 产品 中 ， 和 需求 方 平台 (DSP) 是 算法 挑战 相对 较 大 
的 。 首 先 ， 在 实时 竞价 环境 下 ，DSP 需 要 提供 重 定向 、 新 客 推荐 等 定制 
化 用 户 标 签 ， 而 这 既 需 要 与 第 一 方 数据 和 商品 库 打 通 等 繁杂 的 工程 接 
口 ， 义 产生 了 一 些 新 的 建 模 问题 ， 特 别 是 像 look-alike (新 客 推 荐 ) 这 
种 第 一 方 数据 和 第 三 方 数 据 兼 用 的 受众 定向 问题 。 其 次 ， 需 求 方 平 台 
需要 像 广告 网 络 那样 估计 点 击 率 ， 并 且 会 遇 到 比 广告 网 络 更 高 的 准确 


性 要 求 ， 另 外 还 需要 在 面向 效果 类 广告 主 时 同时 估计 点 击 价值 。 对 
外 ， 实 时 竞价 中 的 出 价 是 存在 优化 空间 的 ， 这 是 DSP 特 有 的 出 价 策略 
问题 ， 也 对 DSP 的 收益 影响 很 天。 总 之 ， 实 时 更 价 的 开放 市 场 环境 为 
定向 技术 和 效果 优化 拓展 了 巨大 的 空间 ， 未 来 需求 方 的 技术 也 还 有 很 
大 的 提高 余地 。 本 章 将 重点 介绍 这 些 在 实时 竞价 环境 下 产生 的 需求 方 
技术 问题 。 

程序 化 交易 市 场 还 有 供给 方 平台 (SSP) 这 一 产品 ， 其 核心 优化 问 
题 是 面 癌 多 个 广告 网 络 时 的 收入 优化 问题 ， 可 以 看 成 是 与 广告 交易 市 
场 中 的 询 价 优化 相 类 似 的 问题 ， 本 章 也 将 分 析 这 两 项 技术 之 间 的 关 
Bo 


14.1 广告 交易 平台 


我 们 先 来 看 广告 交易 平台 的 优化 目标 ， 在 公式 2.2 的 基础 上 ， 这 一 
目标 可 以 调整 为 : 
T 
max >》 bidepw(a;) (14.1) 


01,...,T ^— 

这 里 的 代表 的 是 菜 DSP 而 非 具体 广告 。 与 公式 2.2 相 比 ， 这 一 优化 
目标 显然 大 大 简化 了 : 有 有 先是 成 本 项 没有 了 ， 这 是 由 在 广告 交易 平台 
中 分 成 或 包 断 媒体 资源 的 方式 决定 的 ， 其 次 ， 收 入 项 不 再 与 用 户 或 上 
下 文 相关 ， 因 为 这 部 分 因素 都 由 DSP 来 考虑 ， 并 体现 在 最 终 的 报价 


。 显 然 ， 此 优化 简单 地 通过 比较 DSP 报 价 ， 取 价 高 者 即 可 。 因 此 ， 广 
交易 平台 在 各 种 广告 产品 中 是 算法 方面 挑战 最 小 的 。 

虽然 广告 交易 平台 中 的 计算 问题 不 多 ， 我 们 还 是 要 介绍 以 下 两 个 
问题 。 

(1) 由 于 实时 竞价 的 功能 需求 ， 广 告 交 易 市 场 解决 供给 方 和 需求 
方 用 户 吴 份 对 应 的 问题 ， 在 web 广告 环境 下 ， 这 需要 用 到 cookie 映 射 的 
技术 。 

(2) 实践 中 当 考 虑 到 带宽 和 服务 成 本 带 来 的 约束 时 ， 和 希望 用 更 少 
的 询 价 请 求 完成 尽 可 能 高 效 的 变现 ， 在 这 种 情况 下 ， 公 式 14.1 的 优化 问 
题 会 有 所 变化 ， 这 一 问题 称 为 询 价 优化 。 

由 于 主要 功能 是 提供 公开 或 私有 的 实时 竞价 市 场 ， 广 告 交 易 平台 
是 架构 上 相对 简单 的 广告 产品 ， 其 架构 如 图 14-1 所 示 。 

这 一 架构 主要 涉及 的 是 在 线 广告 请 求 时 的 系统 过 程 ， 而 离线 的 
cookie 映 射 过 程 将 在 下 面 专 门 介绍 。 当 用 户 访问 媒体 页 面 ， 广 告 请求 发 
至 ADX 后 ，ADX 向 各 个 接 入 的 DSP 发 起 询 价 并 完成 比价 决策 ， 然 后 
将 胜出 的 DSP 返 回 给 媒体 页 面 进行 广告 投放 。 从 核心 概念 上 看 ，ADX 
既 不 需要 目 己 的 广告 索引 ， 也 不 需要 eCPM 估 计 ， 因 而 可 以 用 非常 简单 
的 架构 实现 。 但 是 这 仅仅 是 理论 上 的 概念 ， 实 际 产 品 中 ，ADX 与 ADN 
的 界限 并 不 是 泾 渭 分 明 ， 往 往 为 了 支持 小 规模 广告 主 在 更 方便 的 图 形 
界面 采 买 ， 也 需要 广告 检索 和 排序 ， 而 为 了 实现 询 价 优化 ， 人 简单 的 
eCPM 佑 计 也 是 不 可 少 的 。 


i 


14.1.1 cookie 映射 


我 们 先 来 了 解 在 线 广告 中 是 如 何 对 用 户 喘 份 进行 跟踪 的 。 在 不 同 
的 广告 形式 中 ， 采 用 的 用 户 映 份 标识 也 不 尽 相 同 。 

在 Web 环境 下 投 送 的 广告 ， 用 户 映 份 标识 可 以 用 HTTP 协议 提供 
的 cookie 机 制 来 完成 。cookie 机 制 在 安全 性 方面 有 很 多 好 人 处， 比如 每 
个 域名 下 的 服务 只 能 访问 本 域名 下 的 cookie， 这 实际 上 是 由 浏览 右 保 证 
了 不 同 Web 应 用 之 间 用 户 数据 的 隔离 。 不 过 cookie 在 用 户 跟 踪 的 有 效 
性 方面 受到 一 些 限制 : 首先 ， 用 户 可 以 主动 消除 cookie, Tae) GA 
统 对 该 用 户 的 跟踪 就 中 断 了 ; 另外 ， 由 于 广告 网 络 往往 是 在 其 他 域名 
的 网 站 上 跟 踩 用 户 和 投放 广告 ， 其 种 植 的 cookie 是 第 三 方 cookie。 而 
对 于 第 三 方 cookie， 浏 览 器 一 般 有 更 为 严格 的 限制 ， 有 的 浏 贤 器 甚至 
会 在 默认 情况 下 人 禁止 第 三 方 cookie， 这 也 成 为 行为 定 回 的 障碍 。 随 痢 市 
场 对 用 户 隐 私 问 题 越 来 越 关注 ，W3C 还 进一步 制定 了 “Do Not 
Track" (DNT) 的 标准 ， 用 于 用 户主 动向 网 站 要 求 不 要 被 跟踪 ， 或 者 不 
要 被 网 站 上 的 第 三 方 应 用 所 跟踪 。cookie 的 跟踪 方式 还 有 一 个 问题 ， 那 
吏 定 当 某 台电 脑 的 用 户 使 用 多 个 浏 贤 右 时 ， 其 cookie 无 法 直接 统一 起 
来 。 


Web " 
ER 
D HERRIN 
iA 一 
下 DT 


DUM RES 
^ dne 


[i 
WU 


al Mint 
m cuit 


图 14-1 广告 交易 平 台 系 统 以 构 
在 有 用 户 登 录 信 息 的 广告 产品 中 ， 用 户 登 录 的 身份 往往 是 比 浏览 
器 cookie 更 强 的 身份 标识 ， 而 最 典型 的 情形 出 现在 社交 广告 中 。 用 户 
登录 信息 不 仪 在 接续 性 上 远 远 好 于 普通 的 浏览 器 cookie， 还 具有 能 够 打 
通 不 同 的 曲面 和 移动 设备 的 功能 。 因 此 ,创造 网 站 功能 以 癌 励 用 户 登 


杂 是 很 多 从 事 广告 业务 的 互联 网 公司 都 在 努力 的 方向 。 当 然 ， 也 不 能 
认为 用 户 登 录 身 份 的 准确 性 一 定好 于 浏览 器 cookie。 例 如 ， 在 某 些 游戏 
性 质 较 强 的 产品 中 ， 由 于 一 个 用 户 可 能 创建 多 个 “马甲 ”参与 ， 会 导致 
其 用 户 标 识 相 当 不 准确 。 

与 其 他 身份 标识 不 同 ，cookie 由 于 具有 域名 之 间 的 隔离 性 ， 在 RTB 
这 种 服务 器 间 的 广告 请 求 中 ，DSP 无 法 直接 得 到 自己 域名 下 的 cookie 。 
因此， 必须 要 通过 某 种 拉 术 手段 来 完成 喘 份 对 应 ， 这 称 为 cookie 映 里。 
cookie 映 喘 应 用 的 范围 很 广 ， 除 了 上 面 提 到 的 ADX 与 DSP 之 间 的 喘 份 对 
应 ， 典 型 的 应 用 还 例如 媒体 与 DMP 之 间 的 身份 对 应 以 及 某 具 有 永久 用 
尸 标识 的 服务 回 其 他 域名 提供 cookie 找 回 的 服务 等 。 

cookie 映 射 的 场景 比较 多 样 ， 我 们 可 以 重点 关注 三 个 问题 ， 由 谁 发 
Eb? 在 哪里 发 起 ? 谁 保存 映射 表 ? 最 典型 的 场景 有 了 两 种 ， 一 是 涉及 两 
个 域名 ， 即 在 一 个 域名 的 服务 上 癌 男 一 个 域名 发 动 的 cookie 映射 ， 二 
征 涉 及 三 个 域名 ， 即 在 一 个 第 三 方 域名 页 面 上 发 动 的 其 他 两 个 域名 同 
的 cookie 映 射 。 我 们 分 别 来 讨论 这 两 种 情况 。 

涉及 两 个 域名 的 cookie 映射 ， 典 型 的 例子 是 媒体 与 DMP 之 间 的 号 
份 对 应 问题 。 如 图 14-2 所 示 ， 这 一 过 程 有 5 个 步骤。 

(1) 用 户 到 达 媒 体 页 面 。 

(2) 向 媒体 的 cookie 上 映射 服务 请 求 一 段 负 责 此 功能 的 JavaScript 代 
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(3) 媒体 的 cookie 映 射 服务 返回 该 段 JavaScript 代 码 。 


(4) 该 JavaScript 代码 判断 需要 映射 的 话 (如 果 最 近 已 经 做 过 则 
可 以 不 做 ) ， 向 DMP 发 起 cookie 映 射 请 求 ， 并 传送 两 个 参数 : 媒体 的 
标识 (mid) 以 及 媒体 方 的 cookie (mck) 。 

(5) DMP 返 回 一 个 1x1 的 beacon， 并 记录 下 媒体 方 cookie (mck) 
与 己方 cookie (dck) 的 对 应 关系 。 


媒体 (m) cookie DMP (d) cookie 
"m i ERRA 


图 14-2 媒体 与 DMP 间 cookie 映 射 示例 
考察 一 下 关注 的 三 个 问题 可 以 发 现 ， 这 一 cookie 映 射 过 程 是 由 媒 
体 方 在 媒体 的 页 面 上 发 动 ， 并 由 DMP 方 保存 映射 关系 。 这 样 做 有 其 合 
理性 : 媒体 需要 从 DMP 获 得 标签 的 人 群 是 自己 的 访问 人 群 ， 因 此 从 媒 
(ATI As); 而 DMP 保 存 映 射 ， 可 以 比较 方便 地 将 自己 的 用 户 标签 与 
媒体 cookie 对 应 ， 并 传 回 给 媒体 。 
涉及 三 个 域名 的 cookie 映射 ， 典 型 的 例子 是 DSP 与 ADX 之 间 的 
用 户 标识 对 应 问题 。 如 图 14-3 所 示 ， 这 一 过 程 有 6 个 步骤 。 
(1) 用 户 访问 广告 主页 面 。 
(2) 选择 性 加 载 一 个 DSP 域 名 下 的 iframe 。 


(3) DSP 判断 需要 映射 的 话 ， 返 回 包括 多 个 beacon 的 动态 
HTML， 此 处 多 个 beacon 的 目的 是 为 了 同时 与 多 个 ADX 交 换 cookie。 

(4) 通过 其 中 的 某 个 beacon 向 对 应 的 ADX 发 送 cookie 映 射 请 求 ， 
并 带 有 ADX 标 识 (xid) 、DSP 标 识 (did) 和 DSP cookie (dck) 三 个 参 
T o 


(5) ADX 通 过 302 重 定向 向 DSP 返 回 ADX 标 识 (xid) 及 其 域名 下 
的 cookie (xck) 。 

(6) DSP 返 回 一 个 1x1 的 beacon， 并 记录 下 ADX 方 cookie (xid) 与 
己方 cookie (dck) 的 对 应 关系 。 


DSP (d) cookie | FDSPRSIR Adx (x) cookie 
WARE | 三 主 网 六 AUT, 


图 14-3 DSP Ad Exchange 间 cookie 映 射 示例 
这 个 过 程 与 上 一 个 过 程 相 比 ， 由 于 是 在 第 三 方 的 网 站 上 发 动 映 
射 ， 因 而 较为 复杂 ， 需 要 用 到 302 重 定向 ， 不 过 熟悉 前 端 技术 的 朋友 应 
该 不 难 理解 。 仍 然 考察 我 们 关注 的 三 个 问题 ， 这 次 是 由 DSP 在 广告 主页 
面 上 发 动 映 射 ， 并 由 DSP 保 存 映射 关系 。 这 样 做 也 是 符合 业务 逻辑 的 : 
DSP 主 要 需要 广告 主 的 人 群 做 深入 加 工 并 对 这 部 分 人 群 在 ADX 中 出 
价 ， 因 此 从 广告 主页 面 发 动 ; 而 RTB 是 cookie 的 对 应 ， 由 各 DSP 分 别 


自行 完成 比 在 ADX 中 集中 时 完成 显然 更 加 合理 ， 因 此 这 一 映射 表 保 存 
在 DSP 方 。 

除了 上 面 两 个 典型 的 例子 ，cookie 映射 可 能 遇 到 的 需求 还 很 多 ， 
但 大 家 只 要 分 析 清 楚 关 键 的 三 个 问题 ， 并 透彻 理解 上 面 两 种 方式 ， 就 
很 容易 举 一 返 三 ， 根 据 实际 需求 设计 合理 方案 。 
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简单 ， 每 次 展示 都 向 所 有 接 入 的 DSP 询 价 即 可 。 可 是 当 DSP 数 以 十 计 
时 ， 服 务 成 本 整 会 上 升 一 个 数量 级 ， 这 显然 古 无 法 接受 的 。 因 此 ， 广 
告 交易 平台 需要 在 带宽 或 服务 成 本 的 约束 下 ， 优 化 整体 市 场 的 eCPM 水 
平 。 要 考虑 带宽 或 服务 成 本 的 约束 ， 显 然 束 需要 对 每 次 展示 中 询 价 的 
DSP 数 目 做 精简 ， 这 个 问题 称 为 询 价 优 化 。 

询 价 优化 有 两 种 典型 的 思路 ， 一 种 古 工 程 规则 的 思路 ， 男 一 种 是 
将 其 视 为 一 个 之 约束 优化 问题 的 思路 。 先 介绍 一 下 工程 规则 的 思路 : 
考虑 到 DSP 方 有 相当 一 部 分 是 按 照 广告 主 定 制 标签 来 采 闫 流量 ， 因 此， 
这 种 DSP 一 般 来 说 只 会 在 目 己 感 兴趣 的 人 群 ， 也 束 是 cookie 映 射 过 的 用 
户 群 上 出 价 。 显 然 ，ADX 是 可 以 先 验 地 知道 这 一 用 户 群 的 ， 因 此 ， 对 
这 类 DSP 中 的 某 一 个 ， 如 采 当 前 广告 请 求 到 达 的 用 户 cookie 没 有 与 其 映 
Hi, MARIAN TAZ DSP 询 价 。 一 般 来 说 ， 这 样 的 规则 可 以 显著 
降低 带宽 需求 。 不 过 ， 也 有 很 多 的 DSP 并 不 是 仅仅 在 广告 主 用 户 集合 上 


出 价 ， 或 者 当 这 样 做 仍然 不 能 满足 带宽 成 本 的 要 求 时 ， 就 需要 进一步 
的 优化 了 。 

询 价 优化 的 问题 ， 由 于 也 需要 在 每 个 广告 请 求 到 来 时 做 决策 ， 
此 从 框架 上 非常 类 似 于 第 11 章 的 在 线 分 配 问 题 。 只 不 过 这 里 的 约束 变 
成 了 市 宽 或 服务 的 成 本 。 由 于 从 商业 规则 上 说 ， 我 们 不 能 完全 依赖 
eCPM 水 平 来 决定 向 哪个 DSP 发 起 询 价 ， 因 为 这 样 有 可 能 造成 某 些 DSP 
完全 得 不 到 流量 ， 从 而 退出 市 场 。 因 此 ， 实 际 的 询 价 优化 问题 的 约束 
往往 设置 成 各 个 DSP 获 得 流量 比例 的 一 个 上 限 ， 而 这 一 上 限 是 根据 该 
DSP 一 段 时 间 的 花费 来 决定 的 。 在 这 样 的 约束 下 ， 参 考 文献 [19] 中 将 询 
价 优化 摘 述 为 下 面 的 优化 问题 : 


max X` > kia 
(i.a) k Uiak 
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这 里 的 a 代表 的 不 再 是 一 条 具体 的 广告 ， 而 十 某 一 个 DSP; i 可 以 是 
一 个 供给 市 点 或 一 次 展示 (在 没有 流量 预测 的 情形 下 ) ; k 是 某 个 出 价 
(此 处 进行 了 离散 化 以 方便 问题 描述 ) 。 与 第 11 章 的 在 线 分 配 问题 对 
tL. Pa Sy, 是 新 引入 的 变量 ,分别 表示 DSP a 为 供给 i 的 一 次 展示 出 价 
k 的 概率 以 及 以 此 出 价 万 得 此 次 拍卖 的 概率 。 与 在 线 分 配 框架 问题 对 


(14.2) 


比 ， 可 以 发 现 它们 在 数学 本 质 上 是 一 样 的 。 询 价 优化 问题 的 关键 束 是 
上 式 中 的 第 一 个 约束 ， 它 表示 的 是 忌 体 分 配给 每 个 DSP a 的 流量 不 超过 
其 上 限 p,。 有 天 询 价 优化 问题 更 详细 的 研究 参见 参考 文献 [19] 。 


注意 一 下 公式 143 中 所 有 2 Goods o 在 供需 二 部 图 中 ， G, 
a) 是 所 有 的 供给 节点 与 需求 节点 之 间 边 的 集合 。 对 于 开放 竞价 的 ADX 
来 说 ， 所 有 的 流量 向 所 有 的 DSP 开放 ， 因 此 任意 的 G, a) 组 合 都 要 
考虑 ; 而 在 PMP +, ATH (i, a) 组 合 是 由 每 个 私有 市 场 向 哪些 
DSP 开 放 决 定 的 。 

除了 在 线 分 配 的 框架 ， 询 价 优化 的 关键 基础 实际 上 是 对 p, 与 Ya 
两 组 变量 的 预 估 。 也 就 是 说 ， 对 于 某 个 供给 节点 ， 也 即 特定 的 人 群 ， 
要 对 各 DSP 在 此 人 群 上 的 出 价 以 及 此 人 群 整体 的 市 场 价 水 平 有 一 定 的 估 
计 能 力 ， 这 实际 上 就 是 要 预 估 各 个 DSP 在 特定 人 群 上 对 ADX 来 说 的 
eCPM。 因 此 ， 在 询 价 优化 的 需求 下 ，ADX 也 需要 eCPM 佑 计 。 


14.2 需求 方 平台 


DSP 的 优化 目标 与 大 多 数 广 告 产品 有 所 不 同 。 从 利润 的 角度 出 
A, 除了 尽量 提高 广告 的 eCPM， 还 需要 尽量 降低 每 次 广告 展示 的 费 
用 ， 而 后 者 在 广告 网 络 这 类 的 产品 中 是 无 需 优 化 的 。 因 此 ，DSP 的 优化 
问题 可 以 用 下 却 来 表达 : 


T 
max ) uai, uj, Ci) : (aj, uj) — plui, ci)} (14.3) 


di... T 一 

peat .3 中 的 减 号 前 的 部 分 ， 即 收益 ， 可 以 通过 eCPM 估 计 来 计 
算 ， 其 技术 与 广告 网 络 中 的 eCPM 估 计 相 类 似 ; 而 减 号 后 的 部 分 则 通过 
出 价 策略 来 优化 ， 这 是 DSP 特 有 的 优化 需求 。 

DSP 的 系统 架构 如 图 14-4 所 示 ， 其 中 广告 投放 的 决策 流程 为 : DSP 
服务 器 通过 RTBS 接 口 收 到 广告 询 价 请 求 ， 然 后 经 过 与 广告 网 络 类 似 的 
决策 步骤 ， 包 括 检 索 和 eCPM 排序 ， 找 到 价值 最 高 的 广告 ， 并 将 报价 
返回 给 ADX。 这 样 的 决策 流程 ， 适 用 于 按 CPC 或 效果 付费 、 以 套利 为 
目标 的 DSP， 这 类 DSP 通 过 优化 算法 提升 广告 主 的 ROI 来 赚 取 更 多 的 利 
润 。 也 有 一 类 DSP 产 品 ， 其 服务 接近 于 透明 采 买 的 方式 ， 即 广告 主 按 
照 自己 的 用 户 划分 和 策略 完成 RTB 购 买 ， 而 DSP 收 取 固 定 的 手续 费 ， 
种 情况 下 ， 对 优化 的 需求 就 没有 那么 高 。 我 们 重点 讨论 的 是 前 一 种 
DSP ° 

与 广告 网 络 相 比 ，DSP 的 广告 决策 过 程 更 加 复杂 ， 我 们 会 重点 讨论 
下 面 的 几 个 技术 点 。 

(1) DSP 往 往 需 要 支持 定制 化 的 用 户 划 分 能 力 。 在 实际 产品 中 ， 
定制 化 用 户 划分 有 时 由 专门 的 DMP 来 提供 ， 但 更 常见 的 情形 是 DSP 提 
供 的 标准 接口 来 实现 。 

(2) 由 于 DSP 是 完全 面向 广告 主 的 产品 ， 需 要 在 量 的 约束 下 投 
放 。 因 此 ， 还 存在 类 似 在 线 分 配 的 问题 ， 这 产生 了 对 于 出 价 策略 的 需 


求 o 

(3) 在 按 CPC 结 算 的 DSP 中 ， 进 行 eCPM 估 计时 ， 需 要 估计 
CTR; 而 在 按 CPS 等 效果 结算 的 DSP 中 ， 还 需要 同时 估计 点 击 价值 。 并 
且 ， 由 于 实时 出 价 的 要 求 ， 这 两 项 的 估计 都 要 尽 可 能 准确 。 关 于 点 击 
率 和 点 击 价值 估计 的 方法 在 前 一 章 已 经 介绍 过 ， 本 章 会 简要 介绍 一 下 
在 DSP 当 中 的 挑战 。 
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图 14-4 需求 方 平台 (DSP) 系统 架构 示意 
14.2.1 oe 


DSP 与 其 他 广告 产品 相 比 ， 多 了 定制 化 用 户 划分 功能 (customized 
audience segmentation) 部 分 ， 这 是 收集 第 一 方 数据 的 接口 ， 这 部 分 数 
据 将 用 于 加 工 第 一 方 专用 的 用 户 标签 ， 用 于 指导 广告 投放 。 


对 于 定制 化 用 户 标签 中 最 常用 的 重 定 向 ， 需 要 将 访问 广告 主 网 站 
的 茶 特 定 用 户 集合 传送 给 DSP。 这 个 接口 也 有 两 种 主要 的 的 实现 方式 。 

(1) 直接 在 广告 主 的 网 站 上 布设 DSP 域 名 的 JavaScript 代 码 或 者 外 
链 图 片 (也 可 以 是 不 可 见 的 beacon) ， 这 样 DSP 就 可 以 直接 收集 到 访客 
的 记录 ， 再 目 行 加 工分 析 即 可 。 

(2) 采用 线 下 数据 接口 的 方式 ， 定 期 将 广告 主 或 者 其 委托 的 DMP 
收集 到 的 访客 集合 批 处 理 式 地 传送 给 DSP。 当 然 ， 前 提 是 DSP 与 广告 主 
或 其 DMP 之 间 建 立 起 了 cookie 映 射 的 机 制 。 

这 两 种 方式 各 有 优 缺 点 : 前 者 能 够 实时 地 获取 访客 信息 ， 但 是 需 
要 一 段 时 间 的 数据 积 素 才能 复 兰 广告 主 用 户 集合 的 大 部 分 ， 而 且 在 多 
个 DSP 同 时 服务 于 一 家 广告 主 时 需要 加 多 段 跟踪 代码 ， 这 样 会 降低 页 面 
啊 应 速度 ;后 者 虽然 可 以 迅速 得 到 访客 集合 ， 并 且 避 免 页 面 因 多 组 跟 
踪 代 码 而 变 得 太 重 ， 却 在 数据 更 新 时 有 一 定 的 延迟 ， 并 且 对 广告 主 方 
的 技术 要 求 较 高 。 

除了 获取 第 一 方 用 户 行为 数据 的 接口 以 外 ， 当 需要 提供 个 性 化 重 
定 癌 功 能 时 ，DSP 还 需要 向 广告 主 提供 用 于 商品 库 同 步 的 接口 ， 由 于 
不 同 广告 主 的 商品 库存 储 和 管理 区 别 很 大 ， 往 往 需要 多 套 接 口才 能 满 
足 业 务 的 需要 。 在 实际 的 个 性 化 重 定向 技术 中 ， 商 品 库 的 接口 是 最 为 
复杂 的 功能 之 一 。 

在 定制 化 用 户 标签 中 ， 要 特别 提 到 ]ook-alike 〈 新 客 推荐 ) 这 类 方 
法 ， 因 为 它 要 同时 用 到 第 一 方 数据 和 第 三 方 数 据 ， 有 比较 独特 的 算法 


建 模 需 求 。 

look-alike 建 模 

关于 look-alike 的 具体 建 模 方法 ， 目 前 市 场 上 还 没有 大 家 公认 的 通 
用 方案 。 不 过 ， 如 果 从 这 种 定向 方式 的 本 质 ， 即 t (a, u) 的 特点 出 
发 ， 并 且 以 优化 效果 为 主要 目的 话 ， 也 可 以 以 前 文 讨论 的 点 击 率 模 型 
为 基础 ， 得 到 look-alike 的 一 般 可 行 思路 。 

任意 给 定 一 组 (a, u, c) 的 组 合 ， 点 击 率 模型 按照 训练 好 的 模型 
计算 其 预 估 的 点 击 率 。 如 果 变 换 一 下 思路 ， 筛 选 出 一 个 特定 广告 主 的 
历史 投放 数据 ， 并 且 只 使 用 那些 与 用 户 或 广告 主 相关 的 组 合 特征 x 
(a, u) 训练 下 面 的 模型 。 
p(y = l|a(a, u)) (14.4) 

虽然 此 模型 的 形式 与 点 击 率 模型 类 似 ， 但 是 其 意义 已 经 发 生 了 本 
质 的 变化 : 首先 ， 这 里 的 一 条 样本 是 一 个 用 户 ， 而 不 是 一 次 展示 ; 其 
次 ， 这 里 的 输出 信号 y 不 再 是 点 击 行为 ， 而 是 标示 一 个 用 户 是 否 为 广告 
主 用户 的 二 元 变量 。 显 然 ， 此 模型 是 一 个 针对 广告 主 a， 评 价 某 个 u 成 
为 其 用 户 可 能 性 的 评估 函数。 由 于 此 模型 评估 的 是 用 户 的 属性 ， 因 此 
与 上 下 文 信息 c 无 关 。 

对 于 训练 集中 每 一 个 用 户 u， 确 定 其 对 应 的 yY， 有 两 种 方法 : 第 一 
种 方法 根据 广告 主 提供 的 种 子 用 户 集 ， 将 出 现在 该 种 子 用 户 集中 的 u 对 
应 的 y 标 为 1， 否 则 标 为 0， 第 二 种 方法 根据 广告 投放 的 记录 ， 将 点 击 过 
该 广告 主 广告 一 定 次 数 〈 一 般 设 为 1) 以 上 的 用 户 对 应 的 y 标 为 1， 否 


则 标 为 0。 比 较 这 两 种 方法 ， 第 一 种 需要 用 到 广告 主 提供 的 第 一 方 数 
据 ， 能 够 高 质量 且 比 较 精 确 地 圈定 目标 人 群 ， 第 二 种 方法 不 需要 第 一 
方 数据 ， 但 是 靠 广告 点 击 收集 的 种 子 用 户 集合 往往 质量 较 差 ， 而 且 量 
会 受到 限制 ， 也 会 有 比较 严重 的 冷 启动 问题 。 至 于 look-alike 模 型 的 具 
体形 式 和 训练 方法 与 点 击 率 模型 有 类 似 的 选择 。 由 于 look-alike 问 题 的 
训练 集 正比 于 用 户 规模 而 不 是 展示 量规 模 ， 因 此 求解 的 过 程 比 点 击 率 
模型 会 简单 一 些 ， 往 往 不 需要 用 分 布 式 计算 方案 就 可 以 解决 。 

对 任意 一 个 给 定 的 用 户 u， 上 述 look-alike 模型 给 出 的 是 其 成 为 广 
告 主 a 用户 的 可 能 性 。 此 可 能 性 是 (0，1) 之 间 的 一 个 概率 值 ， 对 其 
设 定 一 个 闹 值 ， 就 可 以 将 用 户 分 成 两 类 ， 一 类 我 们 认为 是 该 广告 主 的 
潜在 新 客 ， 一 类 认为 不 是 。 这 样 就 得 到 了 该 广告 主 的 潜在 新 客 这 一 标 
E, 显然 ， 这 样 的 标签 是 一 种 定制 化 用 户 标签 。 

在 很 多 情况 下 ， 为 特定 广告 主 发 现 新 客 ， 既 可 以 采用 这 样 的 look- 
alike 标 签 ， 也 可 以 采用 普通 的 受众 定向 标签 。 比 如 ， 为 招商 银行 的 信 
用 卡 寻找 新 客 ， 既 可 以 由 招商 银行 提供 种 子 用 户 ， 加 工 其 专用 的 look- 
alike 标 签 ， 也 可 以 简单 地 选择 普通 受众 定向 体系 中 的 “财经 /信用 卡 ” 这 
样 的 人 群 。 显然 ， 由 于 第 一 方 数据 的 使 用 ， 我 们 和 希望 look-alike 标 签 在 
同样 的 reach 水 平 下 ， 其 CTR 应 该 高 于 普通 受众 定向 标签 ， 也 就 是 前 者 
的 reach/CTR 曲 线 在 后 者 的 曲线 上 方 《如 图 14-5 所 示 ) 。 人 否则 ，look- 
alike 拉 术 就 没有 价值 了 。 


14.2.2 DSP m A 


DSP 中 的 点 击 率 预测 与 广告 网 络 中 的 点 击 率 预测 原理 一 致 ， 方 法 也 
可 以 通用 。 不 过 ， 由 于 RITB 环 节 的 存在 ， 点 击 率 预测 准确 性 的 要 求 是 更 
高 的 ， 而 且 离 线 测试 与 线 上 测试 存在 一 个 系统 性 的 偏差 ， 下 面 探讨 这 
两 个 问题 。 

对 点 击 率 预 测 准 确 程度 要 求 高 这 一 点 很 容易 理解 : 在 广告 网 络 
中 ， 估 计 eCPM 是 为 了 对 候选 进行 排序 ， 因 此 相对 一 致 的 点 击 率 高 佑 
或 者 低估 ， 对 结果 的 影响 是 有 限 的 ;而 在 DSP 中 ， 估 计 eCPM 有 是 为 了 做 
出 价 的 依据 ， 任 何 高 佑 或 低估 都 会 对 最 后 的 利润 产生 直接 的 影响 。 而 
前 面 介绍 的 PR 曲线 和 ROC 曲 线 主要 对 排序 比较 敏感 ， 在 精细 地 反映 预 
测 准 确 程 度 上 还 不 够 。 例 如 ， 我 们 把 某 一 个 模型 计算 出 来 的 点 击 率 h 作 
如 下 的 变换 : 

lg he=12 (lg p-lg 0.01) +lg 0.01 (14.5) 

可 以 验证 ，pe 与 h 得 到 的 PR 曲线 和 ROC 曲 线 都 是 一 样 的 。 但 是 ， 显 
然 它们 的 预 估 准确 程度 不 相同 。 因 此 ， 除 了 关注 AUC 等 指标 以 外 ， 还 
需要 在 各 种 流量 细 分 上 关注 预测 点 击 与 真实 点 击 的 比 ， 看 它 是 否 在 1 附 
近 。 某 部 分 流量 上 真实 点 击 总 数 与 各 展示 预 估 CTR 之 和 的 比例 称 为 
CoPC (Click on Predicted Click) ， 在 实际 系统 中 ，CoPC 也 是 需要 重点 
关注 的 指标 之 一 ， 它 表征 着 某 部 分 流量 上 是 否 存 在 明显 的 点 击 率 高 佑 
或 低估 。 


m A lOrodit dota Corta Doane Lee en 
oii — 00 [vie jeje 


a oU 
reach 
图 14-5 look-alike 标 等 与 一 般 受 众 定 向 标签 效果 区 别 示意 
表 14-1 说 明了 DSP 点 击 率 模 型 离线 测试 与 线 上 测试 的 系统 性 侦 
差 。 假 设 有 三 个 广告 位 A、B、C， 在 探索 得 到 的 训练 集 上 获得 的 流量 
都 是 10 千 次 ， 并 且 点 击 率 也 都 是 0.2%， 但 是 模型 估计 的 点 击 率 有 的 高 
估 ， 有 的 低估 。 于 是 ， 在 离线 测试 时 ， 模 型 估计 的 平均 点 击 率 与 真实 
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点 击 率 是 一 致 的 。 然 而 ， 在 线 上 按照 此 模型 参与 竞价 时 ， 点 击 率 高 佑 
的 部 分 获得 的 流量 比例 会 上 升 ， 如 表 中 所 示 ，A、B、C 三 个 广告 位 实 
测 时 获得 的 流量 分 别 为 70 千 次 、100 千 次 、130 千 次 ， 于 是 ， 在 线 上 实 
测 集 上 观察 ， 模 型 预 估 的 平均 点 击 率 变 成 了 0.21%， 比 真实 点 击 率 高 估 


了 5%。 由 于 模型 总 是 会 在 部 分 流量 上 高 估 或 低估 ， 因 此 ， 这 样 的 系统 
但 过 总 是 存在 的 ， 有 时 还 会 相当 严重 。 


BANTUR RERNE 


FPA te RUC AS ze AERA, TESCH SETA AS Te 
歼 环 境 下 ， 由 于 模型 本 身 会 影响 流量 的 分 布 ， 对 点 击 率 预测 和 其 他 算 
法 问题 效果 的 理解 要 有 新 的 思考 方式 ， 并 且 应 该 更 多 地 根据 线 上 实测 
的 结果 来 判断 一 个 模型 的 好 坏 与 取舍 。 


14.2.3 点 击 价值 估计 


由 于 DSP 代 表 的 是 广告 主 的 利益 ， 往 往 可 以 通过 在 广告 主 网 站 布设 
代码 等 方式 获得 转化 数据 沪 ， 按 CPS/CPA/ROI 等 转化 效果 方式 与 广告 主 


结算 。 在 这 种 结算 方式 下 ， 除 了 要 按 广告 网 络 那样 估计 点 击 率 ， 还 需 
要 估计 点 击 价值 。 我 们 来 看 点 击 价值 估计 的 问题 。 
ula u,c) = h(a,c) : c(a,u) - t(a) (14.6) 

如 公式 14.6 所 示 ， 点 击 价值 可 以 分 解 为 到 达 率 (reach) h` Rc 
和 转化 单价 t 三 个 量 的 乘积 。 到 达 率 指 的 是 实际 打开 广告 落地 页 次 数 与 
点 击 次 数 的 比例 ， 这 和 与 广告 主 网 站 的 页 面 打开 延迟 关系 最 大 ， 与 媒体 
的 属性 、 特 别 是 误 点 情况 她 有 一 定 天 系 ， 因 此 可 以 认为 它 与 广告 主 a 
和 媒体 CAR; 转化 率 指 的 是 到 达 落 地 页 以 后 ， 有 多 少 比例 产生 了 广 
告 主 定义 的 转化 行为 ， 这 主要 与 用 户 对 广告 主 产 品 的 兴趣 有 关 ， 因 此 
是 广告 主 a 和 用 户 u 的 函数 ;转化 单价 在 CPA/CPS 类 的 广告 中 是 广告 主 
目 定 的 转化 费用 ， 而 在 ROI 类 广告 中 是 广告 主客 单价 与 分 成 比例 的 乘 
积 ， 因 此 我 们 认为 转化 单价 主要 与 广告 主 a 相 天 。 当 然 ， 上 面 的 讨论 非 
第 近似 ， 实 际 上 a、u、c 三 个 变量 都 对 a 到达 率 、 转 化 率 和 转化 单价 有 一 
定 的 影响 ， 而 公式 14.6 只 考虑 了 其 主要 影响 因素 。 

上 面 的 儿 个 量 中 ， 到 达 率 与 转化 单价 都 不 难 统 计 ， 而 转化 率 的 估 
计 是 一 个 比较 困难 的 问题 。 这 下 先是 因为 转化 比 起 点 击 还 要 稀 下 得 
多 ， 用 机 器 学 习 的 方法 建 模 存在 较 大 困难 ;其 次 ， 转 化 的 定义 和 性 质 
与 广告 的 具体 业务 类 型 、 甚 至 不 同 广告 主 的 目标 紧密 相关 。 例 如 ， 电 
商 广 告 主 会 将 购买 定义 为 转化 ， 而 游戏 广告 主 在 开 服 的 需求 下 会 将 注 
册 定 义 为 转化 ， 在 一 般 运 营 状 态 下 会 将 充值 定义 为 转化 。 显 然 ， 不同 
类 型 的 转化 无 法 用 同一 模型 来 描述 ， 这 进一步 加 剧 了 数据 的 稀 焉 性。 


特别 要 注意 的 是 ， 在 没有 充足 的 行业 数据 支持 的 情形 下 ， 广 告 产 
品 干 万 不 能 贸然 将 点 击 价值 估 计 全 部 交 由 机 楷 完 成 。 实 践 中 比较 可 行 
的 办 法 基本 上 都 是 简单 统计 与 运营 经 验 相 结合 来 估算 转化 率 。 不 过 ， 
SE DSP 的 广告 主 类 型 和 转化 流程 相对 一 致 ， 比 如 专门 服务 于 游戏 客 
户 的 DSP 或 者 像 淘宝 这 样 的 平台 电 商 目 建 的 DSP， 那 么 在 转化 数据 比 
较 充 分 的 前 担 下 ， 可 以 采用 机 器 学 习 建 模 的 方法 预测 转化 率 。 转 化 率 
预测 用 到 的 数学 工具 和 优化 方法 在 此 不 再 展开 介绍 。 

14.2.4 出 价 策略 

如 果 DSP 投 放 的 广告 活动 没有 预算 的 限制 ， 那 么 出 价 策 略 非 党 位 
单 : 只 要 按照 eCPM 水 平 出 价 ， 就 可 以 保证 在 第 二 高 价 的 情况 下 每 次 展 
示 都 有 利润 。 但 是 在 有 预算 约束 的 情况 下 ， 显 然 布 户 每 次 展示 的 利润 
率 尽 可 能 高 ， 而 利润 率 除 了 需要 知道 CPM， 还 需要 对 当前 展示 的 市 场 
价格 有 所 估计 ， 并 在 全 局 水 平 上 尽 可 能 将 出 价 集中 在 那些 利润 率 较 高 
的 展示 上 ， 这 就 是 DSP 出 价 策略 的 直观 理解 。 

显然 ， 出 价 策略 也 是 一 个 量 约 束 下 的 效果 优化 问题 ， 可 以 很 目 然 
地 想到 用 在 线 分 配 的 问题 框架 来 解决 。 根 据 上 面 的 问题 梢 述 ， 可 以 把 
E ERE TE o CAE. PE DEG IRE: 
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在 这 个 问题 中 ， 仍 然 把 流量 分 解 成 一 组 供给 市 点 i EI HH v, 表 
示 供 给 节点 i 分 配给 广告 a 的 单位 流量 收益 ， 用 m 表示 供给 市 点 i 上 的 市 
场 价格 。 由 于 第 二 高 价 的 存在 ， 市 场 价格 就 是 成 本 ， 而 r,-m 就 是 单位 
流量 产生 的 利润 。 公 式 里 的 需求 约束 表示 的 是 每 个 广告 主 的 化 费 不 能 
超过 其 预算 。 因 此 ， 这 个 优化 问题 的 物理 意义 是 ， 在 广告 主 预算 的 约 
束 下 最 大 化 DSP 的 收益 。 注 意 到 在 供给 约束 中 ， 所 有 的 x, 分 配 比 率 加 
起 来 可 以 小 于 1， 也 就 是 说 ， 对 在 线 到 来 的 询 价 请 求 可 以 有 一 定 不 参与 
竞价 的 概率 ， 这 也 反映 了 出 价 策略 的 本 质 。 

我 们 注意 到 ， 在 这 个 问题 中 ，r, 和 m 是 需要 估计 的 量 ， 也 是 策略 
优化 的 关键 。 在 估计 r, 和 m 时， 比较 重要 的 一 点 是 如 何 将 流量 划分 到 
合适 的 供给 节点 上 ， 在 最 彻底 的 情形 下 ， 还 是 可 以 将 每 次 展示 作为 一 
个 供给 市 点 ， 直 接 利 用 eCPM 售 计 的 模型 来 计算 r ， 并 建立 一 个 专门 的 
市 价 预 测 模型 来 估计 m。 不 过 ， 由 于 对 市 价 m 的 估计 远 远 没有 对 eCPM 
的 估计 那样 可 靠 ， 不 宜 使 用 过 于 复杂 的 模型 和 算法 ， 一 般 来 说 ， 主 要 
使 用 时 间 、 地 域 、 妹 体 属 性 等 影响 明确 的 因素 来 进行 预 佑 。 


14.3 供给 方 平台 


供给 方 平台 是 与 广告 交易 平台 比较 接近 的 产品 ， 一 般 会 实现 私有 
的 RTB 交 易 以 及 网 络 优化 等 功能 ， 并 且 用 动态 分 配 的 逻辑 决定 当前 展示 
分 配给 哪 种 广告 渠道 。 动 态 分 配 的 整体 产品 策略 已 经 在 6.5.1 太 中 有 所 
介绍 ， 这 个 过 程 涉 及 的 技术 与 其 他 产品 多 是 相通 的 ， 唯 有 其 中 第 3 步 ， 
即 网 络 优化 的 问题 ， 需 要 特别 说 明 。 

网 络 优化 

网 络 优化 问题 是 指 SSP 在 接 入 多 个 广告 网 络 以 后 ， 在 线 动态 决定 
将 广告 请 求 发 给 哪个 广告 网 络 ， 从 而 优化 整体 收入 的 问题 。 

将 网 络 优化 与 14.1.2 市 的 询 价 优化 问题 对 比 可 以 发 现 ， 这 两 个 问题 
有 一 些 相 似 之 处 ， 前 者 需要 预 估 铬 干 广告 网 络 在 当前 (u，c) 条 件 下 
的 eCPM ， 而 后 者 则 需要 预 估 若干 DSP 在 当前 (u, c) 条 件 下 的 
eCPM。 当 然 它 们 也 有 很 大 的 不 同 : 首先 是 在 网 络 优化 时 ， 只 需要 找到 
eCPM 最 高 的 广告 网 络 ， 而 在 询 价 优化 中 ， 要 根据 带宽 约束 在 线 决定 同 
哪 几 个 DsP 询 价 ， 男 外 ， 询 价 优 化 中 DSP 的 eCPM 可 以 根据 历史 数据 比 
较 精 细 地 建 模 计算 ,但 是 在 网 络 优化 中 ， 由 于 广告 网 络 一 般 没有 向 媒 
体 报 价 的 功能 ， 往 往 只 能 采用 粗略 的 数据 分 析 和 建 模 手段 来 估计 其 
eCPM ° 

概念 上 说 ， 在 网 络 优化 中 ， 佑 计 某 个 \a，u，c) 组 合 上 的 eCPM 
时 ， 这 里 的 a 由 具体 的 一 个 广告 变 成 了 某 个 广告 网 络 ， 由 于 没有 了 具体 
的 广告 信息 ， 因 此 预测 的 准确 程度 也 会 大 打折 扣 。 有 关 网 络 优化 的 


eCPM 估 计 问题 ， 由 于 其 在 实践 中 的 重要 程度 有 限 ， 并 且 并 不 是 多 数 广 
告 系统 会 遇 到 的 计算 问题 ， 在 此 不 讨论 其 细节 。 


14.4 延伸 思考 


1. 在 移动 互联 网 环境 下 ， 如 果 采 用 IMEI 这 种 比较 稳定 的 用 户 身 份 
标识 进行 程序 化 交易 ， 会 对 供给 方 、 需 求 方 和 数据 方 带 来 哪些 正面 和 
负面 的 影响 ? 

2. 对 于 同样 流量 规模 的 ADX 与 ADN， 请 定量 估算 其 服务 成 本 的 差 
距 ， 并 据 此 估算 询 价 优化 中 合理 的 服务 成 本 约束 。 

3. 优 选 (preferred deals) 和 RTB 中 需求 方 的 出 价 策略 有 何不 同 ? 哪 
一 种 效率 更 充分 ? 


本 书 由 l'ePUBw.COM | 整理 ，ePUBw.COM d 
供 最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


15 = \ 


在 本 书 的 前 面 章 节 中 ， 我 们 以 在 线 广 告 市 场 上 产品 形态 发 展 的 过 
程 为 主线 ， 对 按 合约 售卖 的 广告 系统 、 非 实时 竞价 的 广告 网 络 和 实时 
竞价 的 程序 化 交易 市 场 作 了 介绍 ， 并 对 其 中 关键 计算 技术 进行 了 深入 
讨论 。 除 了 这 些 骨 干 性 的 技术 以 外 ， 在 线 广告 中 还 有 一 些 非常 重要 的 
外 围 问题 ， 本 章 将 对 这 些 问 题 展开 讨论 ， 目 的 是 为 了 让 读者 对 实际 广 
告 系统 的 各 个 环节 都 有 实际 的 认识 。 

在 前 面 的 章节 中 讨论 的 所 有 技术 和 算法 ， 其 核心 都 是 为 了 优化 广 
告 效 打 。 不 过 前 面谈 到 的 广告 效果 优化 思路 ， 基 本 上 集中 在 受众 的 选 
择 的 角度 ， 而 在 实际 的 在 线 广告 中 ， 还 有 一 项 对 广告 效果 影响 巨大 的 
技术 ， 那 就 是 创意 优化 。 创 意 优化 与 受众 优化 性 质 有 所 不 同 ， 因 为 创 
意 的 改变 实际 上 也 改变 了 广告 要 表达 的 诉求 。 如 何在 基本 的 宣传 诉求 
可 比 的 前 提 下 ， 结 合 受众 定向 对 创意 做 调整 ， 这 是 广告 系统 不 能 不 考 
虑 的 重要 问题 。 

广告 系统 运营 中 男 一 个 必须 考虑 的 问题 是 建立 一 个 灵活 的 实验 框 
ZR (experimentation framework) 。 由 于 各 种 策略 、 算 法 、 架 构 的 调 
整 ， 通 过 线 下 评测 和 模拟 都 很 难 完全 反映 线 上 的 变化 ， 因 此 ， 需 要 有 
一 个 线 上 的 实验 系统 来 确定 其 有 效 性 。 线 上 实验 系统 的 原理 很 们 单 ， 
无 非 是 从 实际 流量 中 分 出 一 定 比 例 用 于 实验 方案 。 不 过 ， 由 于 同时 测 


试 的 方案 个 数 可 能 比较 多 ， 如 何在 一 个 框架 中 进行 更 多 的 测试 是 工程 
中 提高 广告 系统 进化 效率 的 关键 。 

还 有 两 个 与 广告 效果 的 度量 相关 的 问题 。 一 是 如 何在 流量 中 去 除 
那些 恶意 的 和 非 主 动 的 流量 ， 这 部 分 称 为 流量 保护 (Traffic 
Protection, TP) 。 其 中 去 除 恶 意 流 量 的 反 作 散 问题 ， 由 于 是 一 个 “ 道 高 
一 尺 、 魔 高 一 丈 ” 的 动态 博 穿 过 程 ， 因 此 并 无 确定 不 变 的 技术 和 算法 ， 
不 过 也 有 一 些 原 则 和 基础 方法 可 以 遵循 。 二 是 需求 方 站 在 自己 的 利益 
角度 对 广告 效果 的 核实 性 度量 ， 这 称 为 广告 监测 。 这 两 个 问题 其 实 有 
着 相当 深入 的 联系 ， 在 今天 程序 交易 和 受众 定向 大 量 被 使 用 的 在 线 广 
告 市 场 中 ， 这 两 个 问题 在 一 定 程度 上 可 以 结合 起 来 考虑 ， 并 催生 了 所 
谓 广 告 安全 的 问题 和 相应 技术 。 

受众 定向 和 程序 交易 广告 的 男 一 个 重要 影响 是 用 户 的 行为 数据 存 
在 在 不 同 的 广告 产品 之 间 泄 露 的 可 能 。 因 此 ， 隐 私 保护 技术 与 其 对 立 
面 ， 即 去 匿名 化 技术 ， 从 正面 或 者 负面 的 角度 都 与 在 线 广告 有 着 密切 
的 联系 。 关 于 隐私 保护 相关 问题 及 其 在 广告 中 的 可 能 应 用 ， 也 将 下 本 
章 涉及 的 内 容 。 


15.1 创意 优化 


创意 对 于 广告 效果 的 影响 无 疑 是 巨大 的 ， 然 而 我 们 不 能 把 调整 创 
意 带 来 的 效果 等 同 于 受众 定向 产生 的 效果 。 因 为 随 着 创意 的 改变 ， 广 
告 表达 的 诉求 已 经 发 生 了 变化 ， 其 点 击 行为 也 就 不 再 与 其 他 创意 完全 


可 比 。 可 以 通过 一 个 例子 来 理解 这 个 问题 : 假如 有 一 个 保险 类 型 的 广 
告 主 ， 将 一 个 宣传 公司 品牌 和 实力 的 品牌 型 创意 变 成 一 个 用 户 填 写 车 
念 申 请 的 表单 式 创 意 ， 如 图 15-1 所 示 。 之 无 疑问 ， 后 者 的 点 击 率 会 大 幅 
度 上 升 。 但 是 实际 上 ， 这 两 个 创意 向 用 户 传 达 的 诉求 有 着 相当 大 的 区 
All: 前 者 的 目的 是 向 潜在 用 户 渗透 性 地 宣传 品牌 的 定位 ， 以 利于 将 来 
长 期 的 用 户 转 化 和 利润 空间 ;而 后 者 的 目的 则 是 短期 内 的 转化 效果 ， 
但 对 品牌 特质 的 宣传 有 所 不 足 。 
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图 15-1 品牌 型 创意 (£) 和 效果 型 创意 A) 
因此 ， 我 们 重点 讨论 在 广告 的 基本 诉求 保持 相对 稳定 的 前 提 下 ， 
如 何 调整 创意 以 提高 效果 。 


15.1.1 | 


创意 优化 的 一 个 重要 原理 是 我 们 在 第 2 章 广告 有 效 性 模型 中 介绍 
过 的 原则 : 为 了 提高 用 户 的 关注 程度 ， 需 要 将 向 用 户 推 送 此 广告 的 关 


键 原因 在 创意 中 明确 表达 出 来 。 由 于 推荐 原因 众多 ， 这 样 的 创意 优化 
往往 需要 用 程序 目 动 进行 ， 而 不 是 预先 做 好 大 量 的 素材 。 类 比 于 程序 
化 交易 ， 我 们 把 这 类 思路 称 为 程序 化 创意 。 下 面 就 程序 化 创意 的 思路 
给 出 一 些 示 例 性 建议 。 

(1) 地 域 型 创意 。 地 域 定 向 是 根据 用 户 的 地 域 信息 投 送 相应 的 广 
告 ， 如 采 能 将 明确 地 域 指示 性 的 内 容 体 现在 创意 上 ， 往 往 会 对 效果 有 
非常 直接 的 帮助 。 例 如 ， 如 图 15-2 所 示 ， 对 同样 一 个 汽车 广告 ， 对 北大 
和 上 海地 域 的 受众 ， 分 别 加 上 当地 经 销 商 的 联系 电话 。 显 然 ， 对 每 个 
城市 制作 一 版 独立 的 素材 是 不 经 济 的 ， 应 该 在 投放 时 动态 加 入 与 地 域 
相关 的 信息 。 


we. eet p 
图 15-2 同一 汽车 广告 在 北京 CE) 和 上 海 ( 右 ) 的 地 域 型 创意 


(2) 搜索 重 定向 创意 。 根 据 用 户 的 搜索 行为 提供 的 重 定向 图 片 广 
告 ， 如 果 能 明确 标示 搜索 词 ， 往 往 更 容易 唤起 用 户 的 注意 力 和 兴趣 。 


因此 ， 可 以 采用 图 15-3 所 示 的 创意 形式 ， 将 用 户 曾 经 的 搜索 词 放 在 图 片 
下 方 的 搜索 框 中 ， 现 在 这 也 需要 投放 系统 在 线 自动 完成 。 
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图 15-3 搜索 重 定 向 创意 示例 

(3) 个 性 化 重 定向 创意 。 这 种 产品 在 6.4.3 节 已 经 做 过 具体 介绍 ， 
其 中 展示 的 单 品 都 是 在 线 动 态 决 定 的 〈 参 见 图 6-7) ， 而 创意 也 是 在 线 
合成 的 ， 这 也 是 一 种 程序 化 的 创意 。 

在 线 广 告 的 服务 对 象 由 传统 的 品牌 广告 向 效果 广告 发 生 了 倾斜 ， 
传统 的 由 设计 人 员 主 导 的 、 品 牌 形象 驱动 的 创意 生产 模式 也 一 定 会 越 
来 越 多 地 加 入 机 器 决策 的 、 效 果 导 向 的 内 容 。 因 此 ， 程 序 化 的 创意 优 
化 模式 应 该 得 到 足够 的 重视 。 


15.1.2 点 击 热力 图 


在 找 出 创意 设计 的 问题 、 优 化 效果 等 方面 ， 点 击 热力 图 是 一 个 非 
党 重要 的 工具 。 点 击 热力 图 是 将 某 一 个 创意 各 位 置 被 点 击 的 密度 用 热 


力图 的 方式 呈现 出 来 ， 帮 助 创意 优化 者 直观 地 发 现 和 解决 其 中 的 问 
题 。 一 般 来 说 ， 创 意 中 的 寿 干 主要 信息 聚焦 点 应 该 会 比较 集中 地 吸引 
用 户 点 击 。 如 图 15-4 所 示 甸 ， 在 创意 中 人 物 的 眼神 发 生变 化 时 ， 用 户头 
注 和 点 击 的 热点 也 有 很 大 的 区 别 。 显 然 ， 在 这 样 的 点 击 热力 图 指导 
下 ， 创 意 的 迭代 优化 可 以 半 定 量 地 进行 ， 并 且 更 加 有 目的 性 。 
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图 15-4 创意 中 人 物 的 眼神 对 点 击 热力 图 的 影响 
不 过 ， 在 程序 化 创意 的 影响 下 ， 点 击 热力 图 的 使 用 有 一 些 障碍 : 
由 于 在 线 时 会 对 创意 的 部 分 内 容 作 修改 ， 这 种 情况 下 县 加 在 一 起 的 热 
力图 有 时 无 法 反映 细节 问题 。 不 过 对 于 创意 中 一 些 固定 元 素 的 优化 或 
动态 模块 整体 的 效果 评估 ， 热 力图 还 是 很 有 帮助 。 


15.2 实验 框架 


无 论 是 广告 系统 调整 算法 、 架 构 ， 还 是 投放 时 调整 创意 、 定 向 策 
略 ， 都 需要 依赖 线 上 的 实际 流量 测试 来 确定 其 真实 效果 如 何 。 切 分 部 


分 流量 用 于 测试 并 非 难 事 ， 但 是 一 个 实用 的 实验 框架 需要 尽 可 能 多 地 
同时 容纳 多 组 实验 ， 以 提高 流量 利用 效率 和 产品 进化 速度 。 

设计 这 样 一 个 实验 系统 的 关键 ,是 利用 系统 模块 之 间 的 相对 独立 
性 ， 用 分 层 的 结构 来 扩展 实验 容量 。 在 参考 文献 [69] 中 ， 作 者 给 出 了 
比较 典型 的 一 种 分 层 实 验 框架 的 架构 ， 如 图 15-5 所 示 。 在 这 一 架构 中 ， 
不 同 的 实验 参数 被 分 置 于 不 同 的 实验 层 中 ， 一 般 来 说 ， 可 以 按 模块 划 
分 这 些 实 验 层 ， 例 如 在 广告 系统 中 ， 按 检索 、 排 序 和 展现 将 相应 的 参 
数 划分 成 三 层 ， 每 层 都 可 以 将 流量 切 分 成 不 同 的 测 旗子 集 或 域 。 显 
然 ， 在 这 种 分 层 结构 下 ， 不 同 层 上 的 实验 是 可 以 共享 流量 的 ， 这 样 就 
大 大 提升 了 同时 进行 的 实验 数目 。 另 外 ， 系 统 还 预 留 了 一 个 非 重 爱 测 
试 域 (domain) ， 目 的 是 方便 有 时 需要 进行 的 、 联 合 调整 各 层 参数 的 
一 些 特 殊 实 验 。 除 了 实验 层 以 外 ， 此 实验 框架 还 涉及 了 专门 的 发 布 
层 ， 用 于 将 实验 通过 的 参数 逐渐 灰 度 发 布 到 全 流量 上 。 同 一 个 参数 ， 
只 能 出 现在 一 个 实验 层 和 一 个 发 布 层 中 ， 而 优先 级 关系 是 优先 采用 实 
验 层 参数 ， 其 次 是 发 布 层 参数 ， 最 后 是 默认 参数 。 这 样 的 一 个 兼顾 流 
量 实验 和 灰 度 发 布 的 实验 框架 在 实践 中 能 够 满足 大 部 分 情形 下 的 需 


FES : 
测试 域 Jz 


图 15-5 分 层 实 验 框架 架构 示意 
那么 在 每 一 层 中 ， 流 量 是 如 何 随机 被 分 到 各 个 域 中 的 呢 ? 对 于 广 
告 系统 而 言 ， 按 照 每 次 展示 做 随机 分 配 羡 不 合适 的 ， 这 是 因为 多 次 广 
告 展示 之 间 的 相关 性 会 对 测试 的 结果 产生 影响 。 正 确 的 做 法 是 按 用 户 
划分 ， 即 每 个 用 户 的 广告 展示 请 求 都 被 固定 地 发 送 到 同一 个 域 中 。 这 
样 做 的 目的 是 使 得 一 个 广告 策略 的 高 阶 或 长 期 影响 能 够 真实 地 表现 出 
3 s 


15.3 流量 监测 


流量 保护 包括 两 方面 的 内 容 : 一 和 是 对 非 主动 用 户 访问 行为 ， 主 要 
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方案 ， 在 在 线 投放 和 离线 统计 中 都 有 需求 ， 并 且 是 广告 计价 和 其 他 数 


据 统 计 的 基础 步 又。 另 一 个 在 线 完 成 的 辅助 任务 生 为 广告 主 服务 的 广 
告 监测 服务 ， 它 为 了 完成 广告 的 展示 和 点 击 计 数 ， 当 然 也 需要 一 定 的 
反 作 弊 处 理 ， 因 此 这 两 个 问题 有 着 密切 的 联系 。 
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由 于 广告 有 很 多 的 相关 利益 方 ， 因 此 除了 那些 无 恶意 的 、 机 器 产 
生 的 流量 ， 也 会 经 常 过 到 欺骗 性 的 展示 或 反击 行为 ， 即 作 兹 。 作 兹 的 
具体 手段 五 花 八 门 ， 无 法 一 一 列举 ， 并 且 随 痢 反 作 葬 手段 的 进步 而 不 
断 进步 。 要 在 面 对 广 告 作 疾 时 快速 找到 思路 ， 需 要 先 搞 清 作 兹 者 的 目 
的 。 我 们 知道 ， 广 告 活动 是 广告 主 、 媒 体 与 用 户 之 间 三 方 区 互 的 行 
为 ， 因 此 广告 中 的 作弊 行为 主要 有 以 下 三 种 情况 。 

(1) 媒体 作弊 。 巡 体 是 广告 活动 的 主要 受益 者 ， 因 而 作弊 的 动力 
也 节 强 。 由 于 大 多 数 广告 网 络 与 媒体 之 间 坪 按照 点 击 的 价格 来 结 
因此 点 击 作弊 是 最 为 前 见 的 ， 当 然 也 存在 为 了 满足 CPM 订单 量 的 需求 
而 对 展示 进行 作弊 的 情形 。 这 种 作 况 的 花样 楷 多 ， 既 有 将 广告 展示 和 
扩 击 代码 放 在 非 约定 位 置 上 或 非 用 户 目 然 行为 产生 的 流量 上 的 方式 ， 
也 有 通过 将 广告 位 与 内 容 靠 得 很 近 甚 至 相互 重 亚 来 犹 取 点 击 的 方式 。 

(2) 广告 平台 作 兹 。 广 告 网 络 或 广告 交易 市 场 这 样 的 广告 平台 也 
有 制造 虚假 点 击 ， 以 获取 更 多 分 成 的 目的 。 而 DSP 这 样 的 需求 方 广告 
产品 ， 除 了 混入 劣质 流量 的 广告 展示 、 制 造 虚假 点 击 以 外 ， 还 会 通过 
一 些 作 兹 手段 为 广告 主 市 来 虚假 转化 ， 以 满足 效果 考核 的 要 求 。 


(3) 广告 主 竞争 对 手 作 弊 。 某 些 广告 主 的 竞争 对 手 ， 会 通过 技术 
手段 大 量 消耗 该 广告 主 的 预算 ， 达 到 降低 其 广告 效果 的 非 正 利 竞争 目 
的 。 与 媒体 作 浆 不 同 ， 广 告 主 的 竞争 对 手 很 难 通过 控制 广告 展示 的 方 
式 来 作 穆 ， 而 是 通过 多 次 重复 点 击 广告 的 形式 来 作弊 。 由 于 通过 单一 
IP 或 cookie 大 量 点 击 广告 很 容易 被 发 现 ， 作 束 方 往往 会 通过 频 驼 清除 
cookie， 改 变 耻 ， 甚 至 通过 木马 欣 制 多 合用 户 电脑 来 达到 作 浆 的 目的 ， 
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蛙 一 JP 或 cookie 在 大 量 展 示 或 反击 的 作 星 方式 是 最 容易 去 除 的 ， 只 
需要 一 定时 间 段 内 的 展示 或 点 击 设 定 合 理 的 上 限 ， 进 而 发 现 那 些 显著 
超过 上 限 的 IP BX cookie 并 加 入 黑 名 单 即 可 。 

对 于 更 复杂 的 ， 通 过 控制 多 台电 脑 来 产生 假 点 击 的 作 兹 方式 ， 上 
面 提 到 的 点 击 热力 图 也 是 一 个 很 有 用 的 反 作 况 工具: AES BILE PS A 
击 ， 在 创意 上 的 位 置 分 布 往往 呈现 与 创意 关键 区 域 相关 的 比较 自然 的 
分 布 ， 而 机 器 产生 的 用 户 点 击 ， 其 分 布 要 么 过 于 均匀 ， 要 么 过 于 集 
中 ， 很 容易 与 自然 点 击 分 布 相 区 别 。 图 15-6 中 给 出 了 一 个 广告 创意 正常 
的 点 击 热 点 分 布 与 作 次 的 点 击 热点 分 布 的 示例 ， 左 侧 是 目 然 护 击 的 热 
力图 ， 右 侧 是 有 作弊 行为 的 点 击 热力 图 。 可 以 看 出 ， 除 了 目 然 点 击 区 
域外 ， 还 多 了 一 些 集 中 且 均 匀 的 点 击 分布 ， 这 些 明 显 不 符合 正常 用 户 
的 行为 特征 ， 可 以 认定 为 作弊 行为 。 需 要 说 明 ， 认 清 作 弊 者 的 号 份 和 
动机 对 于 用 好 点 击 热力 图 反 作 弊 很 有 帮助 ， 因 为 这 关系 到 如 何 分 解 某 
个 创意 上 的 流量 来 绘制 点 击 热力 图 ， 以 发 现 明确 的 作弊 信 号 。 


图 15-6 自然 点 击 热点 图 UE) Sila PR AR A) 对 比 

除了 cookie、IP 级 别 的 统计 以 及 点 击 热点 图 这 些 思路 以 外 ， 如 琳 广 
告 系统 能 在 JavaScript 代 码 或 SDK 中 收集 到 更 多 其 他 的 物理 信息 ， 如 展 
示 时 间 、 点 击 时 间 等 ， 也 会 对 于 对 别 作 星 流 量 很 有 帮助 。 一 般 来 说 ， 
在 收集 到 比较 充足 的 特征 以 后 ， 可 以 建立 一 个 反 作 束 的 判断 模型 ， 用 
以 过 滤 作 紫 行 为 。 这 样 的 模型 需要 有 一 个 在 线 的 实时 计算 版 本 ， 为 在 
线 计 费 和 其 他 实时 反馈 模块 做 过 滤 ， 也 需要 有 一 个 更 加 精细 的 离线 版 
本 ， 用 于 每 天 处 理 广 告 日 志 ， 得 到 最 终 确认 的 财务 结算 数据 。 由 于 反 


作弊 特征 和 模型 是 广告 系统 高 度 保密 的 模块 ， 在 此 不 展开 讨论 其 细 
节 。 

流量 劫持 

除了 制造 虚假 展示 和 点 击 的 作弊 行为 ， 在 广告 市 场 上 还 存在 着 通 
过 非法 手段 获得 广告 展示 或 点 击 的 准 作 浆 行为 ， 而 其 中 最 典型 的 情形 
就 是 流量 动 持 。 

所 谓 流量 支持 ， 就 是 在 无 权 投放 广告 的 地 方 强行 投放 ， 或 者 改变 
广告 创意 其 至 落地 页 的 内 容 。 一 般 来 说 ， 只 有 一 些 网 络 底层 服务 的 提 
供 商 ， 如 DNS、CDN、 电 信 运 营 商 等 ， 才 有 能 力 进 行 这 种 支持。 流量 
支持 并 非 互联 网 广告 的 新 问题 ， 在 电视 广告 中 也 存在 这 种 现象 ， 如 图 
15-7 中 强行 加 入 的 滚动 字幕 广告 。 尽 管 流量 支持 不 是 合法 的 商业 产品 ， 
但 在 中 国 及 东南 亚 等 地 区 ， 这 确 是 一 个 不 能 忽视 的 广告 渠道 ， 在 服务 
于 效果 类 广告 主 时 ， 必 须要 了 解 其 客观 存在 并 加 以 应 对 。 
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图 15-7 电视 广告 的 流量 劫持 示例 
下 面 通过 几 个 例子 了 解 流量 劫持 的 具体 手段 。 
(1) 信道 弹 窗 。 通 过 电信 运营 商 对 信道 的 控制 能 力 ， 在 用 户 上 网 
时 强行 向 下 行内 容 中 插入 弹 窗 广告 创意 。 这 种 形式 在 PC 和 移动 设备 上 
都 存在 ， 虽 然 CCTV 在 2013 年 “3.15” 晚 会 对 这 种 灰色 广告 渠道 进行 了 曝 
光 ， 但 是 至 今 仍然 广泛 存在 ， 并 且 在 移动 设备 上 大 有 愈演愈烈 之 势 。 
(2) 创意 替换 。 创 意 替 换 仍 然 是 通过 电信 运营 商 的 信道 ， 将 某 些 
网 站 上 的 广告 创意 直接 替换 为 其 他 创意 ， 显 然 ， 这 是 一 种 比 信道 弹 窗 
更 加 粗暴 的 劫持 行为 。 


(3) 搜索 结果 重 定向 。 由 于 搜索 是 高 商业 价值 的 流量 ， 将 搜索 流 
量 导 癌 某 些 搜 索引 擎 ， 可 以 获得 其 收入 分 成 。 因 此 ， 存 在 一 种 流量 动 
持 手 段 ， 当 用 户 在 搜索 引擎 A 输入 某 关 键 词 以 后 ， 搜 索 的 结果 页 会 变 
成 搜索 引擎 B 提 供 的 。 或 者 在 淘宝 这 类 电 丙 焉 直 搜索 中 ， 改 变 结果 商品 
的 排序 或 落地 店铺 。 这 虽然 不 是 直接 的 广告 支持 ， 但 本 质 也 是 一 样 
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(4) 落地 页 来 源 劫持 。 这 是 最 为 简单 粗 又 的 一 种 支持 方式 ， 它 并 
不 投放 广告 ， 而 是 在 用 户 访问 广告 主 落 地 页 时 ， 直 接 在 URL 上 加 上 广 
ck UR TR AS Du, HP fl http://mkt.mbaobao.com/a- 
hotalfshell1219 ix 个 广告 主页 面 时 ， 将 其 修改 成 
http://mkt.mbaobao.com/ahotalfshell1219?utm source=* ， 这 样 广告 主 就 会 
将 其 统计 成 某 广告 渠道 带 来 的 访问 。 

这 些 流量 动 持 手段 中 ， 前 三 种 手段 主要 损害 的 是 媒体 利益 ， 而 对 
广告 主 来 说 ,流量 本 身 则 是 真实 存在 的 。 而 第 四 种 就 是 一 种 彻底 的 作 
次 行为 了 ， 损 害 的 是 广告 主 的 利益 。 由 于 有 这 种 非法 支持 流量 的 存 
在 ， 严 重 扰乱 了 正常 的 效果 广告 和 程序 化 交易 市 场 ， 客 观 上 在 中 国 形 
成 了 一 个 劣 币 驱 逐 展 币 的 环境 一 一 毕竟 努力 提高 技术 和 算法 水 平 远 不 
如 去 买 低 成 本 的 非法 流量 效果 来 得 快 。 因 此 ， 我 们 在 这 里 呼吁 大 家 ， 
一 起 来 抵制 这 种 劫持 流量 ， 真 正 从 产品 技术 方面 扎 扎实 实地 做 一 些 有 
利于 行业 进步 的 事 。 


15.3.2 广告 监 


在 线 广 告 区 别 于 线 下 广告 的 重要 特征 就 是 可 监测 性 。 从 需求 方 来 
看 ， 和 存在 切实 的 需要 ， 委 托 某 家 第 三 方 监测 公司 对 实际 发 生 的 展示 或 
扩 击 数目 进行 核对 ， 以 确保 自己 的 利益 。 不 过 监测 的 主要 需求 存在 于 
按 CPT 或 CPM 结算 的 合约 广告 中 。 这 是 因为 在 竞价 广告 系统 中 ， 广 
告 主 与 媒体 之 间 并 没有 约定 的 价格 ， 可 以 根据 后 续 的 效 末 来 调整 目 己 
的 出 价 ， 因 此 对 展示 或 点 击 的 监测 并 不 是 强 需 求 。 从 这 里 我 们 可 以 看 
出 ， 效 果 检 测 主要 的 服务 对 象 是 那些 品牌 广告 主 ， 一 般 会 占有 在 线 品 
牌 广告 投放 19% 左 右 的 预算 。 

借助 监测 代码 或 者 SDK 实 现 广 告 展示 或 反击 的 计数 并 不 困难 。 但 
征 当 广告 投放 基于 受众 进行 时 ， 监 测 天 要 困难 多 了 。 例 如 ， 某 广告 计 
划 要 求 在 男性 用 户 流量 上 投放 1 000 千 次 的 展示 ， 那 么 如 何 才能 确定 投 
放 的 结果 满足 这 一 条 件 呢 ? 一 般 采 用 的 方案 是 广告 监测 提供 商用 采样 
加 付费 的 方式 收集 一 个 小 比例 人 群 上 的 真实 用 户 属性 ， 然 后 通过 验证 
这 个 人 群 上 性 别 的 准确 率 来 反 推 整体 的 投放 数据 。 这 一 方法 看 起 来 十 
分 简单 ， 不 过 由 于 采样 集 一 般 规模 不 大 ， 在 人 群 分 布 上 与 投放 人 群 相 
比 可 能 存在 较 大 的 偏差 ， 因 此 此 方法 的 关键 在 于 如 何 对 数据 进行 有 效 
的 纠偏 。 男 外 ， 即 便 采 用 这 样 的 方案 ， 也 只 有 部 分 基于 人 口 属性 信息 
的 投放 是 可 以 验证 的 ， 而 对 于 基于 兴趣 标 侈 的 投放 ， 由 于 对 同一 个 用 
户 并 不 存在 确定 的 标准 答案 ， 这 样 的 监测 意义 不 大 。 

由 于 实名 社交 网 络 的 人 口 属 性 信息 相对 比较 准确 ， 又 有 很 大 的 规 
模 ， 因 此 现在 的 趋势 是 直接 采用 社交 网 络 的 数据 作为 标准 来 进行 定向 


广告 的 监测 。 例 如 ， 尼 尔 森 就 与 Facebook 合 作 ， 推 出 了 基于 Facebook 人 
口 属性 信息 的 广告 监测 服务 。 

当然 ， 广告 监测 与 反 作 兹 有 关 密 不 可 分 的 联系 ， 所 有 展示 或 扩 击 
的 计量 都 必须 在 去 除了 作 葡 流量 的 基础 上 进行 。 由 于 广告 监测 是 代表 
需求 方 利 益 的 服务 ， 一 般 来 说 其 反 作 弊 规则 比 媒体 方 或 广告 平台 更 加 
有 严格 的 动力 。 


15.3.3 广告 安全 

在 越 来 越 复 杂 的 广告 投放 和 交易 逻辑 当中 ， 广 告 主 已 经 很 难 像 合 
约 广 告 中 那样 非常 明确 地 管理 自己 的 投放 媒体 了 。 但 是 ， 实 践 中 很 多 
广告 主义 存在 切实 的 需求 ， 希 望 自己 的 广告 不 要 出 现在 一 些 特定 内 容 
的 媒体 上 。 我 们 在 第 2 章 中 曾经 提 及 ， 广 告 预 算 除 了 被 浪费 的 那 部 分 ， 
还 存在 一 部 分 是 会 产生 负面 效果 的 ， 我 们 显然 希望 去 掉 这 些 有 负面 影 
响 的 展示 。 例 如 ， 汽 车 广告 主 不 希望 自己 的 广告 出 现在 有 关 和 车祸 内 容 
的 页 面 上 ， 也 不 希望 出 现在 一 些 低级 庸俗 内 容 的 网 站 上 。 这 样 的 需 
求 ， 不 是 简单 的 广告 可 以 完成 的 ， 而 是 需要 专门 的 服务 来 保证 广告 主 
的 品牌 安全 ， 这 样 的 问题 称 为 广告 安全 问题 。 与 广告 安全 相关 的 关键 
技术 是 广告 投放 验证 (ad verification) 和 可 视 性 (viewability) 验证 。 

广告 投放 验证 

广告 投放 验证 的 作用 是 确认 品牌 的 安全 性 ， 并 保证 展示 的 质量 。 
其 工作 模式 是 当 广 告 投 放 到 页 面 以 后 ， 如 有 果 发 现 页 面 的 内 容 不 符合 品 
牌 安全 的 诉求 ， 则 停止 展示 广告 主 的 创意 ， 转 而 展示 一 个 与 品牌 无 关 


的 创意 。 与 广告 监测 不 同 ， 这 里 的 重点 不 在 于 计量 效果 ， 而 在 于 阻止 
不 恰当 展示 的 发 生 。 

读者 可 能 会 疑惑 ， 既 然 是 在 不 安全 的 页 面 上 茜 投 广告 ， 在 广告 请 
KPRI ECBETR DS URLGSE JS St n] DA DUST 在 实际 的 广告 交易 中 ， 由 
于 多 层 iframe RE, ANAS DIA H AY URL 以 达到 流量 以 次 充 
好 的 目的 。 比 如 ， 某 些 高 质量 媒体 会 将 自己 域名 的 iframe KEER ft 
小 网 站 上 以 冒充 自己 的 流量 ， 从 而 获得 高 的 洲 价 。 因 此 ， 必 须要 在 广 
告 投放 时 ， 进 行 iframe 罕 透 ， 实 时 判断 投放 页 面 的 顶层 URL， 才 能 进行 
广告 投放 验证 。 而 页 面 的 内 容 则 可 以 采用 第 12 章 中 的 半 在 线 抓 取 系统 
来 获得 。 

当 有 了 一 些 历史 经 验 以 后 ， 也 可 以 采用 投放 前 的 验证 方案 ， 也 束 
是 对 那些 历史 上 发 现 不 符合 品牌 安全 策略 的 的 URL 或 广告 位 直接 不 参 
与 广告 交易 ， 这 样 可 以 进一步 下 约 服务 成 本 。 

可 视 性 验证 

品牌 广告 主 的 另 一 个 种 见 诉求 是 广告 展示 的 曝光 程度 。 显 然 ， 出 
现在 第 二 屏 的 广告 位 比 第 一 屏 的 广告 位 上 曝光 程度 要 差 很 多 。 这 个 问题 
也 属于 广告 安全 的 范畴 。 

可 视 性 验证 的 技术 方案 一 般 是 判断 浏览 右 是 否 对 广告 创意 发 生 了 
演 染 过 程 ， 如 琳 没 有 ， 那 么 这 次 展示 实际 上 不 是 可 视 的 。 解 决 可 视 性 
验证 ， 需 要 对 各 种 浏览 右 做 充分 的 针对 性 测试 ， 目 前 的 技术 水 平 已 经 


可 以 做 到 对 95% 以 上 的 浏览 器 内 广告 流量 进行 可 视 性 验证 ;但 是 在 移 
动 应 用 内 广告 中 ， 目 前 还 没有 很 好 的 检测 办 法 。 

可 视 性 验证 同样 有 投放 前 的 方案 ， 也 束 是 对 那些 可 视 比 例 很 低 的 
广告 位 直接 不 参与 广告 交易 。 


15.4 隐私 全 
广告 是 一 个 典型 的 个 性 化 系统 ， 它 需要 大 量 使 用 用 户 的 行为 数据 
进行 受众 定 回 ， 同 时 ， 在 广告 市 场 中 还 存在 着 数据 交易 的 产品 。 无 论 
是 受众 定向 还 是 数据 交易 ， 都 需要 谨慎 地 考虑 对 行为 数据 的 使 用 是 否 
会 泄露 用 户 的 隐私 ;同时 也 要 考虑 拥有 数据 的 利益 方 ， 特 别 是 广告 
主 ， 是 否 在 广告 市 场 中 被 平台 或 竞争 对 手 获 得 和 利用 了 目 己 的 关键 商 
业 数 据 


15.4.1 隐私 保护 问题 


隐私 问题 讨论 的 是 用 户 个 人 信息 的 安全 性 ， 不 过 对 这 个 问题 ， 市 
场 上 存在 着 一 定 的 认识 误区 。 实 际 上 ， 隐 私 保护 除了 关心 那些 成 批 的 
用 户 资 料 泄露 意外 ， 更 大 的 挑战 是 针对 熟人 的 隐私 舌 探 ， 即 窑 探 者 在 
了 解 被 笑 探 者 一 些 背 景 信 息 的 基础 上 ， 即 用 这 些 背景 信息 进一步 试图 
获取 其 更 多 的 隐私 信息 。 后 面 一 种 挑战 由 于 可 能 是 人 工 与 机 器 相 结 
合 ， 而 且 对 成 本 往往 不 敏感 ， 给 隐私 带 来 的 风险 也 最 大 。 一 个 最 生动 
的 例子 ， 可 以 参见 “清华 学 生 用 自拍 照 推 理 出 王 歼 丹 住 
HE” (http://news.cntv.cn/ent/20110819/105071.shtml) 这 篇 报道 ， 在 这 个 


例子 里 ， 一 名 清华 学 生 通 过 分 析 王 政 丹 的 微 博 发 帖 和 照片 ， 准 确 地 得 
到 了 其 住址 这 一 隐私 信息 。 下 面 我 们 来 具体 看 一 下 隐私 保护 的 问题 和 
原则 。 

1. 隐 私 保护 基本 原则 

隐私 保护 在 互联 网 个 性 化 服务 发 展 的 很 早 阶段 就 得 到 了 大 家 的 重 
A, DREARY A29 委 员 会 也 对 此 问题 做 过 深入 的 研究 和 规范 。 目 前 ， 工 
业界 有 以 下 一 些 共识 性 的 隐私 保护 原则 。 

(1) 要 严格 避免 使 用 个 人 可 辨识 信息 (Personal Identifiable 
Information, PII) ° PI 是 最 为 重要 的 隐私 信息 ， 它 指 的 是 那些 被 获取 
后 可 以 被 方便 地 定位 到 具体 人 的 信息 ， 例 如 身份 证 号 、 电 话 号 码 、 电 
子 邮 件 地 址 、 家 庭 住址 等 。 这 些 信息 一 旦 被 恶意 获取 ， 会 给 当事人 带 
来 非常 大 的 不 便 和 潜在 风险 ， 因 此 需要 无 条 件 地 严格 保护 。 需 要 说 
明 ， 广 告 系统 中 经 常 使 用 的 用 户 标识 ， 如 cookie、IMEI 等 ， 由 于 不 具有 
方便 地 辨识 人 的 作用 ， 因 此 不 属于 PII。 


(2) 用 户 有 权 要 求 系统 停止 跟踪 和 使 用 自己 的 行为 数据 。 如 图 15- 
8 所 示 ， 当 向 用 户 提供 行为 定向 广告 时 ， 广 告 提 供 商 应 该 给 出 明确 的 提 
示 ， 如 图 中 的 广告 创意 右上 角 的 “AdChoicesl”。 如 果 用 户 对 自己 的 行 
为 被 使 用 感到 不 满 ， 可 以 通过 此 入 口 得 到 更 多 的 详细 说 明 ， 并 且 可 以 
通过 说 明 页 面 上 的 “Opt Out" 操 作 通 知 系 统 停止 跟踪 和 使 用 目 己 的 行为 
数据 。 系 统 得 到 通知 后 ， 必 须 停止 记录 该 用 户 的 行为 信息 ， 也 不 再 向 
其 投放 行为 定向 广告 。 这 样 的 入 口 给 了 用 户 决 定 是 否 接受 个 性 化 广告 
的 权利 ， 对 特定 情形 下 的 隐私 保护 非常 重要 。 


Ad Choices: Why Did | Get This Ad? 


OVERSTOCK CLEA Ghi 


tailored to previous online behaviors/Visits on this device 
18 Piece Set Android — Dawgs Women's 
4GB Tablet PC 9" Cozy Boots 


国 > 


Price Save Price Save Clicking the Opt-Out button above wil opt you out of behavioral 


$59 76% 919 70% 


图 15-8 Ad Choices 示 例 
(3) 不 应 长 期 保留 和 使 用 用 户 行为 数据 。 即 使 用 户 同意 接受 行为 
定向 广告 ， 广 告 平台 在 数据 的 使 用 和 存储 上 也 应 该 有 所 节制 ， 长 期 保 
留用 户 行 为 对 受众 定 同 价值 有 限 ， 同 时 又 加 大 了 数据 泄露 的 风险 。 
此 应 该 只 保存 一 段 时 期 以 内 的 行为 数据 ， 过 期 的 数据 如 果 并 非 与 业务 
直接 相关 ， 物 理 上 不 应 再 存储 。 


(4) 工程 上 还 需要 特别 注意 权限 的 严格 分 配 和 最 小 数据 访问 的 原 

则 。 工 程 师 在 调试 程序 时 ， 最 好 是 使 用 采样 过 的 、 关 键 信息 被 匿名 化 
处 理 过 的 数据 子 集 ， 而 在 生产 系统 中 通过 特别 的 密 钥 访问 原始 数据 全 
集 。 而 不 需要 开发 数据 处 理 程序 的 人 ， 包 括 管理 层 ， 也 不 应 当 有 数据 
访问 的 权限 。 

上 上面 的 这 些 原则 相当 基本 ， 也 非常 重要 ， 是 广告 系统 、 推 荐 系统 
在 用 户 行为 数据 使 用 中 首先 要 遵循 的 。 不 过 ， 这 些 原则 并 不 能 解决 一 
些 深层 次 的 数据 隐私 泄露 问题 ， 对 此 我 们 还 需要 更 加 深入 地 认识 与 并 
给 出 对 策 。 

2.Quasi-Identifier 与 K-Anonymity 

PI 是 可 以 辨识 个 人 身份 的 隐私 信息 ， 那 么 是 不 是 非 PII 的 信息 就 无 
法 辨识 身份 了 呢 ? 举 个 例子 ,假设 有 这 样 一 条 用 户 信 息 : “姓名 : 
XXX; 手机 号 : XXX; ER: 36; 工作 地 点 : 上 海 市 携程 大 厦 ， 性 
Al: 5; 职位 : 测试 工程 师 ， 爱 好 : 羽毛 球 ， 月 新: 15000 元 ”。 其 中 
的 “姓名 *、“ 手 机 号 ”等 PII 已 经 被 隐藏 。 不 过 ， 如 果 此 用 户 的 一 个 朋友 
看 到 这 条 记录 ， 根 据 “ 年 龄 、 工 作 地 点 、 性 别 、 职 位 、 爱 好 ”这 些 非 PII 
的 组 合 ， 还 是 很 容易 得 知 是 谁 的 信息 ， 从 而 也 束 得 到 了 “月 薪 ” 这 一 隐 
私信 息 。 

在 上 面 的 例子 里 , “年 龄 、 工 作 地 点 、 性 别 、 职 位 、 爱 好 ”这 组 信 
妃 虽 然 单 独 看 来 都 无 法 确定 一 个 人 ， 但 组 合 在 一 起 有 可 能 让 熟人 确定 
出 对 应 的 人 ， 这 样 的 信息 称 为 "Quasi-Identifier”。 由 于 有 这 样 的 Quasi- 


Identifier 的 存在 ， 即 使 没有 提供 PI， 仍 然 存 在 比较 高 的 隐私 泄露 风 
险 ， 这 一 点 希望 引起 大 家 的 注意 。 

有 没有 什么 办 法 能 够 降低 这 一 挑战 市 来 的 风险 呢 ? 简单 的 思路 是 
将 Quasi-Identifier 做 一 定 程 度 的 泛 化 。 例 如 ， 将 “年 龄 : 36 岁 ” 泛 化 
BEER: 30-4077; 将 “工作 地 点 : 上 海 市 携程 大 厦 ”* 泛 化 成 “工作 地 
点 : 上 海 市 ”。 如 果 泛 化 的 结果 ， 使 得 数据 集 里 的 每 一 组 Quasi-Identifier 
的 实例 都 能 找到 K 条 与 其 相同 的 ， 那 么 我 们 就 说 实现 了 K- 
Anonymity。 显 然 ， 当 K 的 值 取得 比较 合理 时 ， 隐 私 泄露 的 风险 也 就 降 
RIDA 

Quasi-Identifier=j K-Anonymity 并 不 是 互联 网 隐私 问题 的 产物 ， 而 
是 在 数据 库 领域 就 有 的 研究 。 它 给 了 我 们 很 大 的 启发 :， 当 背景 信息 充 
分 ， 而 这 些 信息 又 较为 稀 羽 时 ， 隐 私 问 题 的 挑战 会 变 得 更 大 。 而 在 以 
互联 网 广告 、 推 荐 等 为 代表 的 个 性 化 系统 相关 的 数据 交易 中 ， 这 样 的 
风险 变 得 空前 严峻 。 

3. 稀 芷 行为 数据 的 挑战 

在 计算 广告 这 样 的 个 性 化 互联 网 应 用 中 ， 对 一 个 用 户 的 描述 不 再 
限于 上 面 例子 中 的 基本 信息 ， 而 是 包括 了 其 大 量 的 行为 数据 。 行 为 数 
据 的 特点 是 极为 稀 芍 ， 换 句 话 说， 任何 两 个 用 户 的 行为 数据 都 几乎 不 
可 能 是 相同 的 ， 也 很 难 通过 K-Anonymity 的 方案 来 解决 。 那 么 是 否 可 以 
通过 行为 数据 来 反 推 用 户 的 隐私 呢 ? 答案 是 肯定 的 ， 而 且 有 实际 的 案 
例 发 生 。 


在 著名 的 Netflix 百 万 美元 推荐 大 赛 % 中 ， 主 办 方 公布 了 比赛 用 的 数 
据 库 ， 其 中 的 关键 用 户 信 息 已 经 去 除了 PII， 并 做 了 K-Anonymity 的 处 
理 。 不 过 ， 用 户 的 观 影 记 录 和 打分 由 于 是 推 存 使 用 的 主要 数据 并 未 做 
处 理 。 当 数据 公布 后 ， 恰 好 有 一 位 关注 者 在 数据 中 发 现 了 一 条 记录 ， 
从 其 观看 的 影片 和 评价 分 数 来 看 ， 集 合 可 以 确定 无 颖 是 目 己 的 另 一 位 
朋友 ， 而 同样 在 这 个 用 户 观 影 记录 中 ， 还 发 现 了 一 些 同性 恋 题 材 的 有 影 
片 。 读 者 显然 明白 这 意味 着 什么 ， 实 际 上 ， 他 的 朋友 不 想 为 人 所 知 的 
同性 恋 隐 私 被 这 样 一 个 推荐 大 赛 无 意 中 泄 露 了 。 由 于 稀 焉 的 行为 数据 
很 难 通过 简单 技术 处 理 模 糊 用 户 间 的 区 别 ， 再 加 上 其 他 一 些 原 因 ， 这 
一 大 赛 就 没有 继续 举办 下 去 。 

在 参考 文献 [60] 中 ， 作 者 对 上 面 的 隐私 安全 问题 进行 了 更 加 系统 的 
人 研究， 发 现 通 过 简单 的 算法 就 可 以 将 Netflix 给 出 的 数据 与 男 一 个 
IMDb 给 出 的 数据 库 进 行 用 户 身 份 上 的 对 应 ， 而 且 准 确 率 相 当 高 。 抛 开 
具体 的 方法 不 谈 ， 这 一 研究 回 我 们 揭示 的 问题 是 : 通过 壬 焉 的 行为 数 
据 ， 可 以 比较 容易 地 定位 自己 熟悉 的 人 ， 并 进而 获取 其 相关 隐私 信 
轧 。 这 一 问题 的 发 现 使 工业 界 对 隐私 安全 问题 的 认识 大 大 提高 ， 也 提 
醒 我 们 在 数据 交易 和 丝 漏 过 程 中 ， 要 特别 注意 这 方面 巨大 的 风险 。 这 
也 催生 了 与 深度 个 性 化 系统 中 隐私 安全 相关 的 差分 隐私 (differential 
privacy) 四 问题 的 研究 。 

坦率 地 讲 ， 黎 中 行 为 数据 给 隐私 保护 带 来 的 巨大 风险 
熟 的 解决 方案 ， 这 无 疑 将 是 大 规模 行为 数据 利用 头 上 的 达 


还 并 没有 成 
Bey HELD 


剑 。 我 们 在 实际 的 工业 实践 中 ， 需 要 对 此 问题 有 一 定 程度 的 认识 和 理 
解 ， 并 尽 可 能 考虑 到 目 己 的 业务 过 程 中 与 此 相关 的 隐私 安全 风险 。 
15.4.2 程序 化 交易 中 的 数据 安全 

程序 化 交易 的 产生 使 得 在 线 广告 市 场 可 以 综合 利用 需求 方 和 供给 
方 的 数据 来 完成 更 加 精准 的 广告 决策 。 当 然 ， 这 样 的 便利 性 也 是 一 把 
双 刃 剑 ， 在 数据 得 到 更 加 充分 利用 的 同时 ，RIB 中 供给 方 和 需求 方 对 于 
数据 安全 性 的 顾虑 和 诉求 也 必须 加 以 考虑 。 

1. 供 给 方 数据 安全 

我 们 先 来 看 看 供给 方 的 数据 安全 性 问题 。 由 于 在 RTB 过 程 中 ， 
ADX 需 要 疝 参与 竞价 的 DSP 广 播 每 次 展示 的 URL 和 cookie， 使 得 DSP 
理论 上 存在 规模 化 监听 媒体 用 户 行 为 的 可 能 。 假 设 有 某 个 恶意 的 DSP 
对 于 能 够 参与 竞价 的 所 有 广告 请 求 都 以 很 低 的 价格 参与 竞价 ， 目 的 不 
在 于 赢得 流量 ， 而 在 于 收集 媒体 上 的 用 户 行为 ， 这 就 产生 了 媒体 数据 
的 安全 问题 ， 我 们 将 其 称 为 供给 方 数据 安全 ， 第 6 章 介绍 RIB 原 理 时 也 
曾经 提 到 过 这 一 问题 。 

供给 方 的 数据 安全 问题 尽管 在 RTB 中 确实 存在 ， 但 是 并 不 是 想象 中 
那样 严重 。 可 以 回顾 一 下 14.1.2 节 介绍 过 的 询 价 优化 技术 : 由 于 带宽 的 
限制 ， 实 际 上 在 每 次 询 价 时 ，ADX 应 该 尽 可 能 只 向 那些 最 可 能 赢得 竞 
价 的 DSP 发 送 询 价 请 求 ， 而 那些 以 恶意 收集 数据 为 目的 的 DSP， 在 理想 
情况 下 应 该 被 挡 在 大 部 分 的 询 价 以 外 。 

2. 需 求 方 数据 安全 


再 来 看 看 需求 方 的 数据 安全 性 问题 。 在 RTB 的 环境 下 ， 由 于 定制 
化 标 釜 的 引入 ,广告 主 的 第 一 方 数据 也 骏 露 在 了 广告 交易 的 过 程 中 ， 
而 这 些 数 据 有 的 是 广告 主 的 核心 数据 ， 需 要 认真 考虑 其 安全 性 问题 。 
为 了 表达 更 加 清楚 ， 我 们 用 图 15-9 所 示 的 例子 来 说 明 。 假 设 有 两 个 英 
语 教育 类 广告 主 “ 英 孚 教育 "和 “华尔街 英语 >， 两 者 都 通过 DSP 进 行 重 定 
向 访客 找 回 ， 那 么 他 们 分 别 利 用 RTB 的 方式 接触 到 了 自己 的 访客 集合 。 
需要 注意 的 是 ， 这 里 的 顾客 集合 实际 上 是 广告 主 的 私有 数据 ， 也 是 特 
别 具 有 商业 价值 的 数据 ， 然 而 ，DSP、ADX 和 媒体 都 有 可 能 在 RTB 过 
程 中 得 到 这 些 访客 集合 。 如 果 DSP 希望 制造 更 加 激烈 的 竞价 环境 ， 获 
得 更 高 的 利润 ， 那 么 它 实 际 上 可 以 将 这 两 个 广告 主 的 顾客 集合 合并 在 
一 起 ， 并 生产 一 个 相应 的 用 户 标 签 吸引 双方 来 对 此 标签 葛 价 。 这 种 做 
法 的 实质 是 在 苋 争 对 手 之 间 倒 卖 顾 客 集合 ， 并 且 可 以 通过 比较 模糊 的 
标签 名 字 (例如 为 上 面 两 个 广告 主 的 访客 集合 打上 “英语 教育 ”的 人 群 
标签 ) 非常 隐蔽 地 操作 。 随 着 竞价 激烈 程度 的 增加 ， 原 本 属于 广告 主 
的 利润 就 同市 场 其 他 环节 发 生 了 转移 ， 这 个 问题 就 是 需求 方 数据 安 全 


性 问题 。 


图 15-9 需求 方 数 据 安 全 问题 示例 
需求 方 数据 安全 性 在 某 种 意义 上 比 供给 方 数据 安全 性 更 加 重要 ， 
因为 这 决定 了 广告 主 是 否 可 以 放心 地 通过 RTB 进 行 广告 采 买 。 坦 率 地 
讲 ， 当 前 的 广告 交易 市 场 ， 对 这 个 问题 的 重视 程度 和 解决 方案 都 还 很 
不 充分 。 所 以 要 提醒 广告 主 ， 在 广告 交易 中 使 用 自己 的 第 一 方 数据 
时 ， 特 别 是 面 对 强 势 的 广告 平台 时 ， 要 特别 留意 数据 安全 性 的 问题 。 


15.5 延伸 思考 


1. 在 移动 广告 中 ， 流 量 保护 可 能 会 遇 到 哪些 新 问题 ? 会 有 哪些 新 的 
方法 和 特征 ? 

2. 调 人 研一 下 移动 应 用 下 载 类 广告 的 转化 流程 以 及 相应 的 监测 环 市 
并 比较 其 与 标准 展示 广告 监测 的 不 同 之 处 。 


3. 在 一 个 电 丙 平台 上 的 某 家 网 店 中 产生 的 用 户 行 为 数据 ， 平 台 、 风 
店 和 用 户 应 该 对 这 些 数据 的 记录 和 使 用 分 别 拥 有 什么 权利 ? 
t OR 


.关于 为 什么 要 这 样 做 ， 可 以 参照 12.3 节 中 的 讨论 。 

:不同 的 时 间 复 杂 度 与 索引 的 具体 数据 结构 有 关 : 采用 哈 希 表 索 引 时 为 U) ,采用 树 索 引 时 为 O_(logn) 
.参见 参考 文献 [13] 中 的 具体 讨论 。 
.有 时 我 们 需要 饥 历 所 有 数据 或 者 使 用 很 大 内 存 才能 得 到 目标 画 数 的 导数 ， 这 种 情况 实际 上 在 工程 中 比 问题 不 可 导 要 更 常 遇 到 。 

.关于 Wolfe 条 件 的 几何 意义 和 其 他 细节 ， 请 参阅 [62] 中 更 详细 的 讨论 。 

:地域 定向 虽然 是 受众 定向 的 一 种 ， 但 由 于 逻辑 比较 简单 ， 在 CPT 广 告 中 也 会 售卖 ， 并 且 可 以 采用 在 前 端 代码 中 实现 逻辑 的 方式 。 
.这 里 没有 考虑 广义 第 二 高 价 等 定价 机 制 的 影响 。 
Free Disposal 指 的 是 给 某 个 合约 投 送 的 量 超过 合约 要 求 是 无 收益 也 无 损失 的 ， 这 一 点 符合 大 多 数 广告 合约 的 实际 情况 。 

.多 维 y 分 布 随机 变量 在 归 一 化 以 后 服从 狄 利克 雷 分 布 ， 也 就 是 多 项 式 分 布 的 共 斩 先 验 形式 。 

.参考 文献 [22 个 通过 历史 行为 决定 参数 的 泊 松 分 布 来 建 模 展示 数量 ， 我 们 认为 ， 广 告 并 非 用 户主 动 行为 ， 因 此 不 宜 用 历史 行为 来 预测 。 
.更 快 地 利用 用 户 行为 反馈 还 有 其 他 系统 方面 的 需求 ， 参 见 13.3 节 。 
:实际 上 ， 在 排序 阶段 ， 我 们 都 是 按照 这 个 参数 等 于 N1 来 处 理 的 。 

,搜索 广告 中 查询 的 过 分 泛 化 会 对 相关 性 有 较 大 负面 影响 。 因 此 ， 我 们 不 提倡 在 搜索 广告 检索 阶段 利用 短 时 用 户 标签 ， 不 过 在 排序 阶段 可 以 利用 短 时 动态 特 
用 户 更 倾向 于 选择 的 结果 。 
:不 过 ， 由 于 EC 计算 的 不 确定 性 和 难以 解释 ， 这 样 的 方案 在 实际 品牌 广告 中 可 操作 性 并 不 强 。 

.如 果 DSP 不 能 确定 代表 广告 主 的 利益 ， 这 种 深度 合作 有 可 能 会 带 来 广告 主 高 商业 价值 数据 的 安全 性 风险 ， 参 见 15.4.2.2 节 中 的 讨论 。 

JEJE: http://site.douban.com/106407/widgetnotes/335509/mote/252343905/。 此 图 是 眼球 追踪 的 热点 图 ， 不 过 考虑 到 其 与 点 击 热力 图 的 一 致 性 ， 我 们 仍 用 它 逢 
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